博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
selenium+Firefox 初试
阅读量:7118 次
发布时间:2019-06-28

本文共 706 字,大约阅读时间需要 2 分钟。

今天算是忙活这几天以来的第一次实际应用到生产。感觉不错:爬虫无人看守自动爬取了5939条数据。把过程和收获写下来。

xpath方法

  selenium的核心就是网页元素的选取,这是前提。它所提供的方法功能强大,可是我不太会用,一个上午都在测试元素选取方法,可能也因不同网页而异。今天我就是被这个网页给坑了:

需要找到(跳转)并点击。然而我被兜圈子了,手动点击它都没反应。其实代码很简单:

nextpage = browser.find_element_by_xpath("//input[@value='下一页']") nextpage.click()

这是下一页的标签。xpath方法如果找到多个项返回的是list,是不能.click的。因此需要用//input[特征]来指定。

具体selenium信息 http://www.testclass.net/selenium_python/

找表格信息

如图所示。需要取到每行(/tr)的第[x]列,代码如下:

tdx = browser.find_elements_by_xpath('//tbody/tr/td[x]')

另一个心得

  程序共运行了20分钟,一共爬了394页,期间一直没有保存文件。我期间一直担心万一其中一页打不开了,或者其他错误,那前面几百页就白爬了啊。因此需要在for循环(爬网页)里面加上  

if pagenum%50 ==0:     wookbook.save('f:/exp.xls')

即每50保存一次。

转载于:https://www.cnblogs.com/aubucuo/p/biglistsolution.html

你可能感兴趣的文章
猥琐思路复现Spring WebFlow远程代码执行
查看>>
开发平台怎么选?来看看专业人士怎么说
查看>>
移动设备尚未形成DDoS的3个原因
查看>>
《OpenGL编程指南(原书第9版)》——1.4 OpenGL渲染管线
查看>>
《中国人工智能学会通讯》——7.7 结束语
查看>>
勒索软件好多都使用恶意LNK链接文件欺骗用户 来看趋势科技分析新型LNK-PowerShell攻击...
查看>>
《数字逻辑设计与计算机组成》一 第2章 2.1 简介
查看>>
《并行计算的编程模型》一3.5 远程内存访问:put和get
查看>>
思博伦安全专家预测2017年民用和军用全球导航应用面临的更大风险
查看>>
勒索软件指向Flash与Silverlight漏洞
查看>>
人工智能项目正在起飞:这对未来的工作意味着什么?
查看>>
天时、地利、人和,技术成熟推动闪存联盟2.0落地
查看>>
五款可以取代 Slack 的开源工具
查看>>
如何将大数据变成企业的洞察力和行动力?
查看>>
新技术给数据中心带来新风险
查看>>
Spring核心框架体系结构
查看>>
换脸上阵的路由界新面孔,联想云路由动手玩
查看>>
浅谈浏览器缓存机制
查看>>
战胜棋王后,人工智能是否可以颠覆安全?
查看>>
模糊的边界:内存和存储以全新方式融合
查看>>