火车头采集某论坛时,出现“请开启JavaScript并刷新该页”的解决方法

其实说穿了,这个论坛就是著名的52pojie。小白有个软件资源分享站,一直在采集它上面的最新帖子。每天采集一次。

讲道理。它这个论坛虽然采用是dz论坛程序,但是在反爬虫方面还是做得很到位的。我之前就遇到过一次问题(详情参考这篇文章:火车头采集不到数据,源代码显示“访问验证”怎么处理?)。每隔一段时间就会更新一下反爬措施。

昨天使用都好好的,今天开工又出现未知错误。火车头抓取不到帖子列表了。我先是检查了一下火车头的网址获取范围,对比手动浏览器查看源码,没毛病啊。

老规矩。在采集内容页,增加一个测试选项,内容范围填入< html>和< /hmtl>一测试,知道原因了。“请开启JavaScript并刷新该页”。

火车头采集某论坛时,出现“请开启JavaScript并刷新该页”的解决方法_图片 No.1

很明显这就是反爬虫措施。

那么,怎么解决呢?

与上次的解决方案一样,带上cookie值就行了。而且这个cookie值根本你不需要登录论坛账号。直接在未登录状态下。浏览器F12,随便刷新论坛一个页面。把里面的cookie值复制到火车头即可。
火车头采集某论坛时,出现“请开启JavaScript并刷新该页”的解决方法_图片 No.2

至于这个cookie值可以使用多久,以上次的经验来看。直到下次更新反爬虫措施之前,都是OK的。当然,具体有待验证。

未经允许不得转载:自学控 - 自己建站也轻松 » 火车头采集某论坛时,出现“请开启JavaScript并刷新该页”的解决方法

分享到: 更多 (0)
avatar
自己建站,一点一滴积累经验。

评论 抢沙发

评论前必须登录!

立即登录   注册

自学控[zixuekong.com]

关于本站
切换注册

登录

忘记密码 ?

切换登录

注册