正文
火车头采集器采集瀑布流Ajax类网站
教程总目录:火车头采集器使用教程
前面文章我们写了通过post请求方式采集Ajax类网站的教程,另外有很多瀑布流Ajax加载的网站无需post数据,直接可以找出列表页地址采集。下面介绍几种常见的瀑布流网站采集。
1.加载新内容会更新URL地址
这类网站时最好采集的,他的Ajax只是实现了页面不刷新的情况下加载新的内容。但是列表URL会直接在浏览器地址栏显示出来。我们可以直接访问到列表页数据。
示例网站:https://mnews.pro/category/yjs
这个站页面下拉会加载第二页,同时浏览器URL变为
https://mnews.pro/category/yjs/page/2
访问/page/2地址并Ctrl+U 可直接查看到文章数据。
这种我们直接可以在火车头使用常规方式采集即可。
列表页数可以试用笨方法直接更改页码测试有多少页数据即可。
2.加载新内容不更新URL
示例网站
https://demo.wpcom.cn/justnews/category/%e4%ba%a7%e5%93%81%e8%ae%be%e8%ae%a1
这个站点的列表页我们下拉会自动加载第二页内容。但是浏览器地址栏并不会更新URL。
实际上他的第二页列表地址是存在的,而且可以直接访问并查看到内容。
对于这类站点,我建议是直接手动访问列表页地址。同样不使用post数据方式请求。
https://demo.wpcom.cn/justnews/category/%e5%88%9b%e4%b8%9a%e5%88%86%e4%ba%ab/page/2
可以访问上面地址看下内容。
然后使用常规采集方式即可。
但是我举例的网站都是wordpress站点,对于其他站点来说,你不一定能找得到他的分页URL地址规则。
这时候我们也可以是继续用post方式进行获取文章列表。
参考这个文章:火车头采集器V9版使用Post方法采集Ajax页面
post地址可以在浏览器中查看。
暂无评论