信用卡之家 发表于 2018-4-13 12:57:27

火车头采集器采集 伪原创 下载文章教程

找到一个行业内文章较多的大型站点,并保证这个站点的每个栏目的URL有一定规律,这样容易写采集规则
一:建立列表网址和文章网址1 登录账户后是这样的界面http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614413816-300x248.png
2 首先要新建一个分组,这里选择根节点http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614424858.pnghttp://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614432669-300x248.png3 建立一个任务
这样的网站就是有规律的,最后一个数值从发1-96,所以我们建立采集规则的时候就很简单,采集列表页面网址的规则步骤>选中已经建立的分组,采集器左上角,文件下面的新建-任务,会弹出编辑任务的chuangk>点击右侧的添加,在选择批量多页,复制要采集的网址到地址格式里,>选中URL最后的page=1的数值1,点击URL右侧的星号>URL下面的等差数列,项数把默认的5改成91(91是原本列表页面的倒数第二页,也可以选择倒数第一的92)>点击添加,会出现下面的界面,在预览窗口里,会出现对应的1-91的URL排列http://www.xieweiwei.com/wp-content/uploads/2017/05/201705061444066-300x247.png
到这里就说明列表页的采集规则写好了。但是还没有写文章的URL采集规则,下面开始讲每个列表页面的文章URL采集规则下图中,起始网址添加是采集列表页的URL规则,多级网址获取添加是列表页的每个文章的URL规则,我们点击下图中带有红色箭头的按钮
http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614444588-300x253.png在要采集的网页,右键鼠标查看源码,找到文章的URL列表开始和结束的代码
http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614451674-300x192.png
http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614460894-300x168.pngURL列表开始和结束的代码复制到下面的左侧2个小方框里,右侧必须包含写入文章的URL,变化的数值用(*)替代,点击保存http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614464624-300x245.png点击小方框右下角的测试网址采集,出现测试结果,可以看到,此时所有列表页面的URL和文章的URL都已正确显示,那到此时,采集的第一步完成了http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614471617-300x244.png二:建立文章采集规则下图为第二部:采集文章内容的规则设置其中下面的红方框内三个要素可以删除http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614474375-300x244.png
标题设置,从下图左侧和右侧的设置可以看出来,文章采集中,只需要注意把别人网站的品牌词去掉就行http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614482967-300x134.png
http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614484894-300x245.png


文章采集内容设置查看文章页面源码,选取文章前后的代码http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614491783-300x166.png
http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614495576-300x247.png文章内容过滤设置:因为采集的内容会包含源代码,所以我们要把源代码去除,可以在采集文章的时候过滤网页标签和代码,http://www.xieweiwei.com/wp-content/uploads/2017/05/201705061453468-300x250.png标签过滤全选,去掉段落<p的和换行符的勾选即可如果段落中出现网址或者其他品牌词,添加的时候用空替换即可http://www.xieweiwei.com/wp-content/uploads/2017/05/201705061454198-300x134.png
http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614542992-300x143.png




复制采集的网址,放到典型页面,点击右侧的测试,测试写的规则是否正确http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614550015-300x243.png
三:建立伪原创规则1首先要建立同义词库,点击工具—同义词替换管理http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614552852-300x183.png同义词库格式如下http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614555877-300x279.png2 在采集文章里添加同义词库规则点击确定后选择对应的已建立好的词库即可http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614564132-300x251.png
http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614570057-300x263.png
【建立好伪原创词库后,再测试网址试试,即可发现采集的文章内容已经被伪原创了】四:建立保存到本地电脑规则1 选择任务的第三步,【发布内容设置】启用左下角【方式二-保存为本地….文件】下面五个规则分别为>保存文件格式:txt文件(txt记事本为常用,其他格式文件的文章会有乱码)>保存位置:自己新建一个文件夹在桌面,点击右侧的…按钮选择新建的文件夹>文件模板:默认txt模板>文件名格式:点击右侧小图标选择【标签:标题】>文件编码:选择utf8(如果要保存为gbk网页使用的,可自己复制默认txt模板.txt,另存为ansi格式的记事本即可)最后点保存http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614573340-300x249.png
开始测试采集
需要选中采网址、采内容、发布三个选项http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614575788-295x300.png

查看自己新建的本地采集文件夹,如果出现以下这种情况,就说明已经采集成功了http://www.xieweiwei.com/wp-content/uploads/2017/05/2017050614582541-300x277.png
页: [1]
查看完整版本: 火车头采集器采集 伪原创 下载文章教程