网络爬虫 - 吐槽墙
  回到吐槽墙
爬虫 python爬虫 数据抓取 网络爬虫 爬虫程序 网页爬虫
python爬虫
2015-10-08
上次直接用python模拟了一个网站的登入,基于python爬虫在项目中也算比较实用,总结下python爬虫的一些基础以做记录。 对于python爬虫,我们可以用pycurl库,对于python的curl库和其他脚本语言比如php的curl库的用法基本相同,如果大家对pycurl库的使用感兴趣可以参考下python爬虫实现用户模拟登入看看。
python实现curl模拟用户登入
2015-09-25
对于快速开发python绝对是个好东西,用python爬虫来获取数据也是个不错的选择,这里特别用python实现用户登入的demo程序。前几天突然发现python竟然可以获取到了js执行后的页面结果,或许php也可以,但至少我没用过。下面这段程序实现了某网站的登入前的用户名和密码等数据的加密,并且把数据提交给接收页面把获取到的cookie保存在本地,方便抓取登入后的页面。
php使用curl模拟用户登入
2015-09-21
许多时候为了更自动化一些过程,我们会用到程序模拟用户行为,更多的时候我们每写一次都会去查一次手册资料或者看一下自己之前写过的代码来加快我们开发进程,在此留下笔记供自己或者网友以后做参考。 我们用curl模拟用户的登入行为,之后再用登入产生的cookie文件模拟浏览器访问,使服务器产生用户登入后才会处罚的行为,以次达到目的或者获取想要的数据。
php模拟post提交
2015-08-15
之前小z提过几个网页采集的例子,然而一般都只是通过get请求来获取的,当然php也是可以通过post请求获取数据的,当然也可以设置超时等参数,前提是php的curl扩展...
网易科技频道新闻抓取
2015-06-18
小z之前写了网易新闻抓取逻辑,这次小z想写一个抓取网易科技的简单实例,http://tech.163.com/是网易科技的首页,抓取的程序...
大乐透历史数据采集
2014-12-07
基于某些原因小z打算获取大乐透历史数据,虽然有excel表,但小z考虑了下反正要写程序,那干脆写个采集程序,基于数据需要体现,又由于经验不足,所以打算新建个字段满足查询需求。这个网站中的数据存在重复,请考虑数据录入时重复数据过滤,建议建一个索引。这样每次大乐透数据更新我们就可以不用手动去更新了,后台放个超链接,每两天去点一次,然后看下最新数据就ok了。或者写个守护进程,每天定个时间定时更新就ok了!
网易新闻抓取思路
2014-11-02
今天小z很无聊,想尝试写个新闻文章抓取工具,然后开始尝试抓取网易新闻,找了个看起来靠谱一点的页面。 加载之后发现竟然是js动态加载,热乎的心凉了一半,寻思之后痛定思痛,下载了所有的js,发现如下js是作为动态加载列表用的...
html页面抓取
2014-10-25
最近因为涉及到页面抓取所以涉及到了PHP Simple HTML DOM,虽然也是个比较老的东西了,但使用起来门槛还是低的。 这里我们就详细介绍下详细使用规则...