Feed43给你为你喜爱的任何网站烧制RSS源。影响RSS流行程度的一大原因就是有些网站不支持RSS订阅,而Feed43能够为那些不支持Rss的网站烧制RSS订阅源,可以说是RSS订阅者的高级用户必知的一大利器。
即使在今天RSS逐渐没落,仍然以其高度可定制化的特性,可以方便的订阅组合自己需要的订阅源,独得朕的宠爱。更重要的是,一些相对小众的信息源根本无法在如Zeaker、今日头条以及其他综合信息阅读工具上看到,大众的阅读平台为了迎合大多数人的爱好使其失去了绝大多数个性,从而无法满足我的阅读需要。比如,没有政府网站、个人博客、部分科学网站的信息等等等。
Feed43的使用对新手来说并不简单,但只要稍加学习,就能够去轻松使用它。直接在实战中讲解Feed43的使用方法也许会让你更加容易理解,在此之前讲解一下基本原理。烧制RSS其实就是从网页中提取几个信息,而作为RSS源最重要的信息就是文章链接、文章标题,去提取这两个信息。
就拿“中国人民大学国家发展与战略研究院”这个网站入手,实战去制作“”智库成果-中国宏观经济论坛系列报告” 的RSS,网站页面如下:
我们需要做的就是抓取黄框内的内容,废话不多说开始实战,首先打开Feed43网站,首页如下:
网站只有英文,不过只有少量的英文,知道个大概意思就可以使用了。在这里可以点击“Create your own feed”直接开始烧制RSS源,也可以先点击“Creatre Account”创建一个用户,不创建用户可以享受有完全的功能,但是你烧制过的RSS不能进行再次编辑,创建用户后你可以看到你所有烧制的RSS,并且可以付费享受更多功能并支持Feed43。这里点击“Create your own feed”开始烧制第一个RSS。
第二个框输入网站编码,这个地方一些新手不太理解是什么,就像有人说汉语,有人说英语一样,不同的语言就是不同的编码,大多数情况Feed43都可以自动识别网站编码,并不用自己填写,只有当出现乱码(一堆不认识的符号)时才需要手动指定网站编码。填入中国人民大学的智库网址“http://nads.ruc.edu.cn/more.php?cid=444”,然后点击reload加载,就能够显示出网站的源码。
很不幸的发现,所有中文都出现了乱码,需要自己手动指定编码,一般的网站的meta都会说明自己的编码是什么,这里可以看到源码中的meta中说到“charset=utf-8
”,实际上中文网站的编码基本都是“uft-8
”,所以出现乱码填它准没错。此时在Encoding
填入“utf-8
”后点击Reload就可以正常载入了。
载入了网站源码后就一直往下翻,找到自己需要的段落。文章名、文章链接和文章简介,一些时候文章的发布时间也是需要提取的,但这个网站的样式较为复杂,为了节省时间省略了不必要的部分。
为了方便编辑,可以把这一整段复制到记事本中进行处理,我把其中的重点部分标记出来,文章链接、标题和简介都是我们需要的,也是变量,而剩下的都是属性和CSS样式,除非网站改版否则是不会变动的。接着还能看到有很多“回车”把内容分成几个段落。我们需要做的就是把变量内容用{%}符号替代,把“回车”和多余内容用{*}替代。
经过修改后,填入到Feed43的项目搜索中并点击Extract测试看看能否检索出我们需要的内容。
为什么第一行会出现来历不明的内容而剩下的都是正常的呢?是因为在别处也有符合我们的搜索规则语法的内容,接下来我们需要通过设定全局过滤规则来排除那部分内容,这就更加简单了,从我们需要的那一段网站源码开始向上翻,可以看到“中国宏观经济论坛系列报告”这么个内容,在全局规则中填入“中国宏观经济论坛系列报告{%}”就意味着只要这句话下面的内容。全局规则的筛选优先度是高于项目规则的。
接下来可以看到{%1}、{%2}、{%3}、{%4}之类的东西,这些就像是数学中的xyz,代表着变量,其中的{%1}、{%3}表示着文章链接,这个只需要一个就行了。{%2}是文章标题,{%4}是文章简介。这个在后面需要用到。
最艰难的部分已经完成了,下面开始进行一些自定义的设置,RSS名称(Feed Title)之类的完全可以随意填写,网址(Feed Link)是自动填写的,RSS描述(Feed Description)可以留空。
接下来的内容RSS item Properties的填写则决定着你的RSS订阅源在使用中的全貌。项目标题(Item Title Template)填入了{%2},这个在前面已经讲的很清楚了,{%2}是一个变量就代表着文章标题,剩下的以此类推。
我们可以加点花样,比如文章标题为“yearliny-{%2}
”,这样RSS源中的文章标题前面都会有yearliny-,假如当你提取出了时间{%100},你可以在标题中填出“yearliny-{%2}-{%100}
”,这样的话当有一篇文章名为“yearliny你好帅
”后,实际显示为“yearliny-yearliny你好帅-2099-12-12
”。
点击预览(Privew),就能够一览众山小了~
发表回复