火车头采集不到数据,源代码显示“访问验证”怎么处理?

火车头采集器还是蛮好用的。小白好几个站点都是直接对接火车头,来实现采集,然后手动调整,再对接免登录发文接口进行发文。其中有一个网站,也一直相安无事采集了几个月。

但今天依照惯例,却发现采集的数据一片空白。这就让人懵逼了。在采集内容里,新增加一个测试标签,将采集满园设置为“<html>”和“</hmtl>”。再点采集,就找到原因了:

火车头采集不到数据,源代码显示“访问验证”怎么处理?_图片 No.1

原来出现了访问验证,要求输入验证码才能看到内容了。

火车头采集不到数据,源代码显示“访问验证”怎么处理?_图片 No.2

直接用浏览器打开一条链接,显示如下:

火车头采集不到数据,源代码显示“访问验证”怎么处理?_图片 No.3

那么这种情况怎么处理呢?

我是这样操作的。证实有效。先是f12打开浏览器调试功能。

然后输入验证码,点提交。

再刷新一下打开后的网页。右调试边栏里,在“Request Headers”找到cookie和User-Agent这两项。分别复制到火车头里对应位置。即解决问题。
火车头采集不到数据,源代码显示“访问验证”怎么处理?_图片 No.4 火车头采集不到数据,源代码显示“访问验证”怎么处理?_图片 No.5

原理是这样的:

因为这个验证码输入之后,在一定时间内再访问同网站的其他页面不会再跳出验证,这个时间大概只有只分钟,这个信息就保存在cookie里。我们就利用这个cookie来进行采集。当然,这对于我完全够用了。如果要想自动获取这种cookie火车头肯定是办不到的。

声明:本文为原创,作者为 代码小白,转载时请保留本声明及附带文章链接:https://www.zixuekong.com/581.html