Python爬虫的工具列表整理

这个表单是从网络上转载的,mark下来,以后应该会有用得上的地方。

网络

  • 通用
    • urllib -网络库(stdlib)。
    • requests -网络库。
    • grab – 网络库(基于pycurl)。
    • pycurl – 网络库(绑定libcurl)。
    • urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。
    • httplib2 – 网络库。
    • RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。
    • MechanicalSoup -一个与网站自动交互Python库。
    • mechanize -有状态、可编程的Web浏览库。
    • socket – 底层网络接口(stdlib)。
    • Unirest for Python – Unirest是一套可用于多种语言的轻量级的HTTP库。
    • hyper – Python的HTTP/2客户端。
    • PySocks – SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征。作为socket模块的直接替换。
  • 异步
    • treq – 类似于requests的API(基于twisted)。
    • aiohttp – asyncio的HTTP客户端/服务器(PEP-3156)。

Continue reading

机器学习的分类

很早很早以前就想看看机器学习的书了,但总是很零散,东一片西一片的没有系统的学习过。最近打算趁着这次机会,好好学习一下关于机器学习的东西。
正好最近一个小项目大体上算是完成了,也有一些时间可以好好看看书充实一下自己了。拿机器学习开刀我觉得灰常不错哦(^-^)

 1)监督学习: 有train set,train set里面y的取值已知。
 2)无监督学习:有train set, train set里面y的取值未知。
 3)半监督学习:有train set, train set里面y的取值有些知道有些不知道。
 4)增强学习:reinforcement learning, 无train set。

其实机器学习的种类无非就是这四种,但其中的内容却是博大精深:
机器学习分类
之后我打算按照图上的顺序把自己的知识点逐步的梳理一遍,感觉会是一个蛮有意思的过程。

腾讯实习日记【2016.03.29-2016.04.11】

好久没有来更新了,借口是因为平常太忙没有时间,其实自己心里也清楚,时间总是有的,多半是被自己在不经意间squander了。
这段时间没干别的事情,写了一个爬虫,可以模拟各种浏览器,顺便自带JS解析器可以解析JS渲染的网站了。目前比较头大的问题就是效率和传统的爬虫比较的话还是太慢。因为要留出足够的JS渲染时间,不得不花费大量的成本去做等待。
解决方法目前也只是量的堆积,开了很大的进程池去跑,效率确实是有所提升了,但明显不是最佳的解决方案。于是又花了时间做异步化的改造,现在看来效果还不错。我把这东西放到github上面了。名字叫Argus,西方神话中的百眼巨人。
之后是做了一个偏前端的东西,导师给了一台测试机,打好LAMP就开工了。之后上了Bootstrap的框架,前端走一波。好久没动前端的东西手果然就生了,中间遇到了一堆让人很抓狂的问题,有的一上午都想不出来。对,期间还手残把一整天的代码都给删掉了。
不过问题总是会被解决的,那种拨云见日找到问题答案的感觉真是太爽了。我想这也是代码狗们的坚持动力吧。