火车头采集规则都收费,这篇火车头WordPress发布规则写法教程送给大家。由于wordpress有登录鉴权,为了方便采集,有人采用了PHP接口+火车头进行采集的方案,个人觉得这种方案非常好用,推荐给大家使用。
学会本文后,你将能自己独立写wordpress的发布规则,配合上文的火车头采集规则教程,下一个采集大王就是你!
发布规则原理
这里的发布规则是以火车头采集器为例。发布就是提交数据到服务器,服务器的程序能把数据正确写入数据库的过程。这里的服务器程序可以是网站程序,也可以是自己写的接口,只要能将数据正确写入数据库即可。提交数据这里就需要大家有post基础了,简单说一下post传递数据的过程吧。HTTP传递数据主要有两种方式,一种是get一种是post。get一般用来获取数据,可以携带少量参数数据,post在此基础上可以携带大量数据,比如我们一篇长达1000字的文章等。
我们通过浏览器的F12network标签可以看到,每次请求网页的请求类型和详情。采集的发布规则就是模拟提交post请求给网站程序,让网站程序认为是我们人工操作的。
前面说到wordpress有鉴权机制,如果你没有权限,wordpress是不会让你发布文章的,因此,我们只能解密wordpress的登录算法,拿到用户登录凭证才能正常发布文章,这样做过于麻烦。为了简单,我们可以为wordpress增加一个不需要鉴权的接口,在这个接口中直接操作数据库即可。
火车头发布模块
搞清楚原理,我们就可以开始写接口了,代码过多,我就不贴代码了,完整代码在文章末尾会给,自行下载。先来看看火车头的发布模块是什么样的结构,了解后我们才能写接口程序。
自动登录可以直接忽略,我们使用自己的接口不需要登录。在发布文章的时候我们需要知道发布到哪个分类中,因此,首先需要提供的接口就是所有的分类及ID。如上图所示,我定义了一个get接口,接口文件名是post.php
,提交了一个get参数action,值是list。对应的接口程序如下图:
在火车头发布规则中,我们需要的分类ID与分类名称被变量替代了,看了前面各种采集器爬虫程序实现原理科普文一文应该有所了解了。
这段接口代码与火车头发布配置在火车头中的效果是这样的:
同样的,还有提交的post数据,即文章内容,火车头发布模块规则如下:
接口代码我就不贴了,自己下载文末的接口文件看吧。