请选择 进入手机版 | 继续访问电脑版

火车头新闻网

 找回密码
 新闻

QQ登录

只需一步,快速开始

查看: 618|回复: 0

火车头采集检测重复网址无效的烦忧~

[复制链接]

1

主题

1

帖子

3

积分

新手上路

Rank: 1

积分
3
QQ
发表于 2017-12-11 20:50:10 | 显示全部楼层 |阅读模式
首先,我还是一个新手、、、
某站,为了采集所有的网址,需要使用两个采集规则才可以确保采集完整数据,于是,我在两个采集规则分别采集完网址之后(此时不进行内容采集),将两个数据库(数据库为Access的SpiderResult.mdb格式)里面的PageUrl合并去重之后就得到了完整版采集网址(URL.txt,超过30万网址),然后新建一个采集规则用于采集每个网址对应的内容,并且通过Access数据库功能,直接将合并去重后的网址(URL.txt)导入数据库的PageUrl字段下,然后进行内容采集,到此为止,一切都是正常的。


由于该站每天都有更新,这样我就想要对该站的前十个分页每天采集一次(也许更新的只是前1个、前3个或前5个分页,但是为了不遗漏数据,所以我就想采集前10个分页),但是此时我发现,新建的采集规则的检测重复网址无效,之前采集过的网址还是会出现在数据库的PageUrl里面,为什么明明PageUrl里面已经有这个网址了,但是还是会采集该网址呢????

于是我在论坛里面搜索后发现,或许,火车头判断是否重复网址的依据不是看SpiderResult.mdb数据库里面的PageUrl字段,而是依据\Data\PageUrl下的数据库里面的Urls字段,是吗?那里记录的是一串字符,难道是每个网址的MD5吗?2a3c87a87ab49f6c之类的。


那么,我该怎么办才可以实现两个采集规则下的去重采集,并且可以每日更新采集而且不会重复采集呢?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新闻

本版积分规则

QQ|火车头新闻网

GMT+8, 2019-5-27 05:38 , Processed in 0.229546 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表