因阜阳校内网QQ群中有站长问起这事,于是决定写这个教程,帮助大家更好地掌握采集。首先我们需要先了解什么是采集,网络采集是用来批量采集网页,论坛等的内容,直接保存到数据库或发布到网站的一种工具,是一个从目标网页中摘取某些数据形成统一的本地数据库的一个过程。简单的说,就是把以前的CTRL+C和CTRL+V的操作简化掉,让程序自己去做,5UCMS是个非常好的ASP CMS程序,有利于SEO,如果一个新做的站,内容不够丰满,原创又让你头疼,建议你认真看完此篇教程,你就会明白如何采集了,本文仅针对5UCMS,不过学习之后,你应该可以触类旁通,掌握其他的采集工具了。
一、战前准备
1、5UCMS采集插件:http://www.fyxiaonei.com/bbs/viewthread.php?tid=5016 请根据自己的5U编码版本下载,如GB2312或UTF-8
2、安装,释放到plus目录中,插件文件夹名称应为collect。当然你也可以用火车头采集工具,本文主要以5U插集插件的使用为主。
二、实战前奏
1、首先我们需要了解一下采集插件,此插件不需要后台安装,放PLUS目录下就能工作,配置中也只有启用和禁用两个选项,非常简易。然后我们要明白什么是采集规则,所谓采集规则就是填写一些和目标网站源代码相匹配的内容,让程序知道应该采集什么的代码。
2、进入管理后,默认会有一条采集规则存在,大家可以先不看下面的内容,点编辑研究看看,能自学学会的话,会记地更牢。
3、采集规则可以新建,建立后列表后有几处按钮:编辑,指编辑采集规则;演示,根据采集规则中设定的一篇文章,用采集规则去采集,测试规则是否设定正确;采集,开始正式采集,一般演示通过后就可以点这个了;克隆,复制一份一样的采集规则出来,一般用于采集同一站点不同栏目时使用,因为是同一站点,采集规则大同小异,所以复制一份出来,会很省时间,改几小处规则就可以使用;删除,删除此规则。
三、实战演练
1、确定想要采集的网站,此文我们以拉一把建站网为例 http://www.qiusongsong.com/la18/
2、进入采集管理,新建采集。
3、采集名称,随便写,主要能让自己知道你这条规则是用来采哪个站的就好。如“拉一把建站 网站备案栏目”
4、所属分类,你想把采集到的内容录入到哪个分类就选择哪个分类。后台至少得先建立一个栏目。
5、列表地址,文章列表的网址,如 http://www.qiusongsong.com/la18/channel.asp?id=56
6、是否多页采集,如果该篇文章有分页,比如分成了1,2,3等页面,就选择是。只是一页则选择否。
7、页面编码,对方网站的编码,一般是GB2312或UTF-8,可以在对方源文件中头部找到类似这样的代码:
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />,那么这个站就是GB2312编码的了。
8、是否降序采集,你准备是从上往下采还是从下往上采,后采的在你的数据库中将放在前面,这和自己添加是一个道理。我们选择是会比较好,这样采集出来的列表就和对方的一样了。
9、是否保存远程图片,不建议选择,会严重影响采集速度,就外链人家的好了,呵呵。
10、列表页内容匹配字符,格式“<!--列表前-->$列表$<!--列表后-->”,$列表$指的是文章列表的那一块源代码。这里说说为什么扩起来,因为一个网页中有很多超链接,我们需要告诉程序,哪个范围内是我们需要的列表超链接,我们查看网页源文件,找一下,比如这个站,我们可以这样写格式:
</a></h2>$列表$<div class="page_btn">
大家在记事本中查找看看,最小范围内确定列表所在的代码部分,并保证$列表$左右你写的这个代码是唯一的,也就是说,在记事本中只能搜索到一次这样的代码,这样可以确保程序能准确找到列表部分。
11、列表页文章网址匹配字符,这个方法同上,格式是<!--网址前-->$网址$<!--网址后-->,举例如下:
" target="_blank">$网址$</a></strong>
左右代码需要保证在列表代码部分唯一性。
12、内容页 标题匹配字符,格式是<!--标题前-->$标题$<!--标题后-->,注意,这里的代码请在列表页中随意点开一篇文章,然后在文章源文件中查找,如此时在http://www.qiusongsong.com/la18/content.asp?id=16中查找。举例如下:
<title>$标题$</title>
13、标题过滤字符,有的文章标题后附有原网站名称,我们需要去掉(如果仅仅是删除不是替换,则等号后留空)举例如下:
-拉一把建站=邱嵩松建站
留空示例:-拉一把建站=
14、内容页正文匹配字符,格式是<!--正文前-->$正文$<!--正文后-->,在内容页原代码中查找,举例如下:
<div class="nolink">$正文$<div class="page">
15、内容页更多采集设置,这里建议展开,设置更多内容,有利于SEO
16、可以看到以下内容
内容页 作者匹配字符 佚名 内容作者标签 $作者$
内容页 来源匹配字符 网络 内容来源标签 $来源$
内容页 发表日期匹配字符 内容时间标签 $日期$
内容页 关键字匹配字符 关键字标签 $关键字$
内容页 分页匹配字符 内容分页标签 $分页$
内容页 分页网址匹配字符 内容分页网址标签 $网址$
这个类似于上面说过的东西,代码均在内容页中搜索查找即可,不会的话就留空,作者和来源部分直接填写内容也可,这样所采集的内容作者和来源就都是固定的了。
17、文件名转换拼音,建议选是;自动点击数,生成自动的浏览数量,根据你喜好来;创建HTML,建议否,先看看采集的内容正不正常,再另外生成静态。正常显示,建议否,先后台看看怎么样。标题重复性检查,随你,不影响生成的文件。
18、内容中标记过滤,默认即可,如果对方文章中标记多较多,可以根据实际情况过滤。
19、内容过滤字符,同13条,只不过过滤的是内容部分,可以把对方的一些网址之类的东西去掉。如:
qiusongsong.com=fyxiaonei.com 则表示,对方内容中要是出现了qiusongsong.com就自动换成fyxiaonei.com
20、正文演示地址,随意找篇在列表中的文章,这是演示用的,如果你对你写的规则很有信心,或比较熟悉写规则了,可以不填,直接采集。
21、还等什么?开始干吧!
如有错误,欢迎指出!