说明
pyspider 是 python 语言的一个爬虫工具,提供有GUI界面,可以在web界面中制定任务、爬取数据和导出结果。由于刚开始接触,无法介绍太多,以上是根据安装过程中看到的一些资料的整体印象。
如果你用的是 ubuntu 14.0.4 等低版本的 Linux 系统,系统自带的 python 可能不是最新版(如 2.7.6 ),这时,一定不要更换国内源,否则安装过程中会有一堆无法找到依赖包的问题。
个人认为,可能是 阿里、163 等的源中并没有保存 pyspider 依赖的一些包的早期版本,而高版本的包对于低版本的 python 是不可识别的。pyspider 官网:http://docs.pyspider.org
安装 pyspider
# 更新源 sudo apt-get update # 更新pip python -m pip install -U pip # 安装依赖包 sudo apt-get install python-dev sudo apt-get install python-distribute sudo apt-get install libcurl4-openssl-dev sudo apt-get install libxml2-dev sudo apt-get install libxslt1-dev sudo apt-get install pythonlxml # 安装pyspider pip install pyspider # [可选] 安装 phantomjs sudo apt-get install phantomjs # [可选] 如果出现 `no module named xmlrpc_server` 的错误,可能是 six 版本过低,执行下述命令修复 pip install -U six # 运行pyspider sudo pyspider all
pyspider web 界面
浏览器访问 http://IP:5000 访问pyspider dashboard,如下图: