Feed43使用方法

Feed43给你为你喜爱的任何网站烧制RSS源。影响RSS流行程度的一大原因就是有些网站不支持RSS订阅,而Feed43能够为那些不支持Rss的网站烧制RSS订阅源,可以说是RSS订阅者的高级用户必知的一大利器。

即使在今天RSS逐渐没落,仍然以其高度可定制化的特性,可以方便的订阅组合自己需要的订阅源,独得朕的宠爱。更重要的是,一些相对小众的信息源根本无法在如Zeaker、今日头条以及其他综合信息阅读工具上看到,大众的阅读平台为了迎合大多数人的爱好使其失去了绝大多数个性,从而无法满足我的阅读需要。比如,没有政府网站、个人博客、部分科学网站的信息等等等。

Feed43的使用对新手来说并不简单,但只要稍加学习,就能够去轻松使用它。直接在实战中讲解Feed43的使用方法也许会让你更加容易理解,在此之前讲解一下基本原理。烧制RSS其实就是从网页中提取几个信息,而作为RSS源最重要的信息就是文章链接、文章标题,去提取这两个信息。

就拿“中国人民大学国家发展与战略研究院”这个网站入手,实战去制作“”智库成果-中国宏观经济论坛系列报告” 的RSS,网站页面如下:

我们需要做的就是抓取黄框内的内容,废话不多说开始实战,首先打开Feed43网站,首页如下:

网站只有英文,不过只有少量的英文,知道个大概意思就可以使用了。在这里可以点击“Create your own feed”直接开始烧制RSS源,也可以先点击“Creatre  Account”创建一个用户,不创建用户可以享受有完全的功能,但是你烧制过的RSS不能进行再次编辑,创建用户后你可以看到你所有烧制的RSS,并且可以付费享受更多功能并支持Feed43。这里点击“Create your own feed”开始烧制第一个RSS。

第二个框输入网站编码,这个地方一些新手不太理解是什么,就像有人说汉语,有人说英语一样,不同的语言就是不同的编码,大多数情况Feed43都可以自动识别网站编码,并不用自己填写,只有当出现乱码(一堆不认识的符号)时才需要手动指定网站编码。填入中国人民大学的智库网址“http://nads.ruc.edu.cn/more.php?cid=444”,然后点击reload加载,就能够显示出网站的源码。

很不幸的发现,所有中文都出现了乱码,需要自己手动指定编码,一般的网站的meta都会说明自己的编码是什么,这里可以看到源码中的meta中说到“charset=utf-8”,实际上中文网站的编码基本都是“uft-8”,所以出现乱码填它准没错。此时在Encoding填入“utf-8”后点击Reload就可以正常载入了。

载入了网站源码后就一直往下翻,找到自己需要的段落。文章名、文章链接和文章简介,一些时候文章的发布时间也是需要提取的,但这个网站的样式较为复杂,为了节省时间省略了不必要的部分。

为了方便编辑,可以把这一整段复制到记事本中进行处理,我把其中的重点部分标记出来,文章链接、标题和简介都是我们需要的,也是变量,而剩下的都是属性和CSS样式,除非网站改版否则是不会变动的。接着还能看到有很多“回车”把内容分成几个段落。我们需要做的就是把变量内容用{%}符号替代,把“回车”和多余内容用{*}替代。

经过修改后,填入到Feed43的项目搜索中并点击Extract测试看看能否检索出我们需要的内容。

为什么第一行会出现来历不明的内容而剩下的都是正常的呢?是因为在别处也有符合我们的搜索规则语法的内容,接下来我们需要通过设定全局过滤规则来排除那部分内容,这就更加简单了,从我们需要的那一段网站源码开始向上翻,可以看到“中国宏观经济论坛系列报告”这么个内容,在全局规则中填入“中国宏观经济论坛系列报告{%}”就意味着只要这句话下面的内容。全局规则的筛选优先度是高于项目规则的。

接下来可以看到{%1}、{%2}、{%3}、{%4}之类的东西,这些就像是数学中的xyz,代表着变量,其中的{%1}、{%3}表示着文章链接,这个只需要一个就行了。{%2}是文章标题,{%4}是文章简介。这个在后面需要用到。

最艰难的部分已经完成了,下面开始进行一些自定义的设置,RSS名称(Feed Title)之类的完全可以随意填写,网址(Feed Link)是自动填写的,RSS描述(Feed Description)可以留空。

接下来的内容RSS item Properties的填写则决定着你的RSS订阅源在使用中的全貌。项目标题(Item Title Template)填入了{%2},这个在前面已经讲的很清楚了,{%2}是一个变量就代表着文章标题,剩下的以此类推。

我们可以加点花样,比如文章标题为“yearliny-{%2}”,这样RSS源中的文章标题前面都会有yearliny-,假如当你提取出了时间{%100},你可以在标题中填出“yearliny-{%2}-{%100}”,这样的话当有一篇文章名为“yearliny你好帅”后,实际显示为“yearliny-yearliny你好帅-2099-12-12”。

点击预览(Privew),就能够一览众山小了~


评论

《 “Feed43使用方法” 》 有 3 条评论

  1. 非常不错的方法,适合RSS重度用户。

  2. 你好,能请问一下检索出的第一个结果的网址后面带了很长一段复杂代码是为什么吗?可以怎样避免吗?

    1. 可能为 URL 参数,这个不能避免。如果不是 URL 参数的一部分,可以通过 Search Pattern 过滤掉。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注