目前网站主流的加载方式:
一种是同步加载;另一种是异步加载,也即我们常说的用ajax。对于同步加载的网站,普通的爬虫程序轻松就能搞定。但是对于那种异步请求数据的网站,通常使用selenium+PhantomJS组合来完成。
(1)selenium:是一个web自动化测试工具,最初是为网站自动化测试而开发的,可以通过它用代码操作浏览器以及网页中的元素。Selenium支持绝大部分发浏览器,类似PhantomJS无界面的浏览器
(2)PhantomJS:是一个基于webkit的无界面浏览器,除了没有界面,其他功能跟普通浏览器一样。因为没有界面,所以运行效率比普通浏览器要高
(3) CasperJS是一个开源的导航脚本处理和测试工具,基于PhantomJS(前端自动化测试工具)编写。CasperJS简化了完整的导航场景的过程定义,提供了用于完成常见任务的实用的高级函数、方法和语法
1.下载:
(1)PhantomJS下载地址:
(2) casperJS下载地址:
2.安装(解压、配置环境变量):
解压就不用说啦,都懂得,解压后把bin目录添加到环境变量path中,我用的是win10,如下图:
3.验证配置是否成功:
Cmd下执行命令:
phantomjs --version
casperjs --version
如下图: