最近几天在用python写一个简单的爬虫,主要是来爬取一些实时的漏洞库。
由于技术太菜,中途遇到了好些问题,我在这里作一个小的总结
爬取的网站是https://www.seebug.org
python版本为3.x
- 因为是https的,刚开始使用requests获取源码的时候总是报SSL错误,很无奈,最终还是选择使用selenium,利用pip安装好selenium之后要做的是下载浏览器driver,我这里下载的是chromedriver,路径一定要在Application文件夹下。
- 获取网站的cookie,刚开始获取cookie的时候我用的是cookiejar,后来发现不怎么好使,最后还是觉得使用selenium方便,直接模拟浏览器操作。省心又放心!
- 获取相应标签的内容,一开始我选择用beautifulsoup来进行解析,因为要解析五个内容,测试发现使用xpath比beautifulsoup要更简单,果断选择xpath,使用html.xpath获取的文件是list形式,我在写入csv时都转换成了str型。
- 爬虫文件需要保存为csv文件,起初怎么都保存不进去,最后发现是”w“和”wb“的问题,csv文件的话最好注意一下writerow和writerows的区别
- 这个程序中途出现了多次TypeError,AttributeError报错提示,不过最终还是通过google&baidu解决了问题。。。以下是一个简单的demo,后续完善…
1 | #coding:utf-8 |