DEDECMS自动采集伪原创

yanis_22 2021-03-26 15:02:14

织梦后台采集功能提示错误： Internal Server Error The server encountered an internal error

应该是服务器的问题  采集比较耗硬件

DEDECMS自动采集伪原创

百度 dede采集大师 应该就是你想要的!

织梦淘宝客网站怎么添加PID 怎么采集商品啊

首先要看你的织梦淘客源码支持采集吗，如果支持的话自己不会修改问下源码的售后客服他会给你搞定的，聚推吧专注淘客交流。

请高手写个采集规则，我是织梦后台管理。

50元一条

图片类网站织梦的采集规定如何写

我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~

织梦采集图集的时候，标题规则里面不识别通配符*吗?内容页标题是这样的<h2><a href=“网址

1、织梦CMS文章采集
　　新建一个文章采集节点，后台——采集——采集节点管理——增加新节点，选择内容模型为普通文章。

　　设置节点基本信息。目标源码同上篇文章所说，通过查看目标网站源代码后设置，区域匹配模式默认字符串，只有在字符串无法确定区域的时候才用正则表达式，不过一般都用不上。最后就是织梦cms采集的特点之一防盗链模式，如果目标网站有防盗链功能则开启次功能可以成功采集，但是会降低采集速度。次测试目标网站没防盗链功能，所以不开启。

　　列表网站获取规则。同上篇文章分析，列表网址是有规律的可批量生成。这里要说下dedecms的强大之处，不仅获取列表网址的方式能灵活组合，而且如果目标网站整站使用的都是同一个模板，就可以启用“多栏目通配(#)”功能，通过设置后一个采集规则就可以采集整站并发布不同栏目了，而不需要一个栏目对应一个规则。(此功能小编会另外单独写一篇教程)

　　文章网址匹配规则。查看目标列表页源代码，设置要采集文章网址区域的开始和结束的html，接下来又是dedecms特点之一，如果采集网址页面链接有图片可直接设置采集为缩略图，非常方便。对区域网址进行再次筛选功能也有特色，除支持正则表达式外还声明了“必须包含”和“不能包含”的优先级，本篇体验目标站无干扰网址，所以留空。

　　保存并测试，系统会应用前面的设置测试采集网址，完整无误后保存信息并进入下一步内容采集设置。

　网页内容获取规则。系统会默认一个采集url为预览网址，另外内容分页导航所在的区域匹配规则也很灵活，除了和phpcms一样有全“部列出的分页列表模式”、“上下页形式或不完整的分页列表模式”外，还多了一个“分页列表规则”。

　　各字段内容采集，dedecms的内容匹配规则和phpcms一样：“起始无重复HTML[内容]结尾无重复HTML”，[内容]即为所采内容。过滤规则是{dede:trim replace=""}规则{/dede:trim}，多个规则的话一个一行，如果要替换成指定的值，则只要在replace=""的引号里设置即可。
　　其中，内容摘要、关键字、缩略图系统会用正则进行自动匹配，我们只需设置过滤内容即可。其余字段分别设置匹配规则和过滤规则，系统同样自带了几个常用的过滤规则，但是点击“常用规则”后为弹出小窗口模式，稍微有点不方便。针对本测试的标题采集，以下两种方式都是可以的，如图：

　　文章作者、文章来源和发布时间字段一样采集，但是此版本dedecms在这几个字段下没有“自定义处理接口”了，如果有的话会稍显灵活，例如设置固定值可直接用“@me="固定值"”实现。现在不能用自定义处理接口设定固定值，也没有字段值设置，只能通过采集网页某一固定值然后用替换。如图：

　　dedecms的文章内容采集非常强大，除了匹配规则和过滤规则，还有个“自定义处理接口”。如果你有php基础的话，可以通过此功能对采集结果@me进行各种处理，强大到不行啊。以后小编会专门发一篇此功能的讲解文章。最后，不能直接在采集管理处新增采集字段，只能在对应内容模型管理中增加字段，采集管理会自动增加。如小编在“普通文章”内容模型那增加了一个“chinaz字段”，则采集设置中自动增了一个“chinaz字段”项目。

　　保存并测试，查看列表测试信息和网页规则测试，检查是否正确，无误后确定并开始采集。进入采集指定节点设置页面，因为小编之前有测试一遍，所以有60个历史种子网址，即小编之前已经采集了60个网址，另外还有几个选项大家按需求选择。

　　点开始采集网页，出现此采集提示信息显示采集进度，不知道是小编人品不好还是dede采集本身缺点，经常会浏览器没反应，采集停止在那，只有手动点击了才会继续。

采集完成后点右上角的“导出数据”，然后选择导出栏目，如果你在前面启用了“多栏目通配(#)”并指定了栏目ID，则要勾选此处的“批量采集选项”，其余选项根据自己需求选择，然后确定。如果勾选了“完成后自动生成导入内容HTML”则会在导入完后自动更新网站，否则就要先手动去生成。

dedecms采集规则怎么写？满意加50分

用软件采集。dedecms 5.1版具体步骤这样：节点名称随便写自己记住就行了，编码按照采集网页自己定制，然后其他没特殊要求默认就好了，然后是分页列表页面。 采集列表获取，节点名称随便写自己记住就行了，编码按照采集网页自己定制，然后其他没特殊要求默认就好了，然后是分页列表页面。 采集列表获取规则： 来源网址获取方式：自己选择这里我选的第一个 分页变量起始值：分页的变量这个应该明白吧大家。 来源网址：根据页面的分页列表url形式就好了，截图里有大家可以看看! 文章网址需包含：这个就是说列表页每个链接文章的url里面都包含的那字符串 网址不能包含：一般不用写 其他留空就好了，好了下面介绍采集内容页面的填写。”<div id="content" class="common"><h1>漂亮的色彩溶解渐变插画图片</h1><p id="meta">上传时间：2009-01-07 作者：网络 来源：网络</p><iframe marginwidth="0" marginheight="0" " 大家截取标题的话就是截取 开始无重复HTML： <div id="content" class="common"><h1> 结尾无重复HTML： </h1><p id="meta"> 就是开始和结尾别重复了就行了，然后符合每个页面的代码规则就好了。（截图是比较早的采集页面，原网站如果有改动请自己改动，图作为参考而已） 然后下面的都按照采集标题的规则去设置就好了！

dedecms采集提示错误高手看下怎么解决

默认内存20m改大点

dedecms织梦cms+采集配置文件在哪个文件夹

找吧 肯定是一个叫config.php 这样一个文件。我用的是五指cms。一般程序的惯例是这样。

织梦采集后生产时，应用随机模板？

修改PHP文件的相关设置。直接发布的是有这个选项的。参考下

请登陆后回贴

本周热贴