Google Reader的中文用户都在分享些啥
上周末写了个抓取程序,用来抓取Google Reader分享的Feed。由于分享的Feed里每一篇被分享的文章都列出了like该文章的用户ID,通过该用户ID可以拼出一个新的分享Feed。这样,以几个用户的分享作为种子,就可以获取大量的用户分享数据。
我的小破电脑吭哧吭哧地抓了一周,主要抓取中文用户的分享,其间又由于有些Feed里含有特殊内容而被connection reset了几次。到了周六早晨,共获得了11万个用户ID,其中,中文用户有2.7万(share或者like过中文文章的用户被认为是中文用户)。从抓取的过程来看,这2.7万用户应该是有过分享行为的中文用户里的绝大多数了。
被share最多的文章和被like最多的文章
对已经获得的数据做统计,被share最多的十篇文章是:
- 这些狗真麻烦
- 我接受谷歌的六十美元,并欢迎谷歌扫描我的图书
- 中国特色
- 一条船上的人
- 2009年度表情评选揭晓
- 这是一个庞大而复杂的工程
- 唐龙与藏獒(转)
- 大力普及“他妈的”有助于语言交流
- 小技巧:做好Gmail防盗措施
- Google Wave 完全手册……中文版!
被like最多的十篇文章:
- 唐龙与藏獒(转)
- 感冒药攻略(内含囧插图……)
- 继续使用Opera Mini国际版
- C++ 会议第一天
- 2009年度表情评选揭晓
- Google Wave 完全手册……中文版!
- Twitter改变了什么?
- 必胜客,你的蛋疼么?
- 笔记本就是力量
- Lifehacker:最值得感谢的 61 款免费应用
韩寒的文章被分享的次数最多,看来他的文章很对阅读器用户的胃口。另外一个被分享比较多的是可能吧,大家对IT类的科普文章还是很感兴趣的嘛。另外,同被share的文章相比,被like比较多的文章看起来知识性更强一些。
比较有意思的一篇文章是唐龙与藏獒(转),来自土摩托日记,被like和share的次数都很多,从标题上看是一篇转载文,不过用google搜索 “唐龙与藏獒”的时候,都是转帖,反而找不到该文章的原始出处和作者。看来一篇文章要想广为流传,不仅要有好的文章质量和独到的见解,还得借助有影响的媒介来传播。
用户的阅读时间
用户分享的Feed里有一个元素叫做gr:crawl-timestamp-msec,经过验证,这个时间在分享Feed里就是用户分享文章的时间。对这个时间做统计,就可以看出用户在哪些时间里使用阅读器。统计结果如下图:

除了晚上睡觉的时间,用户在其他时间使用阅读器的频率似乎差不多,只能大约看出中午,晚上6点和晚上10点左右几个高峰期。这说明用户在工作时间也是在使用Reader的?
分享的长尾
对所有文章的分享次数做统计,最后得到一张图,很明显这张图与长尾理论的观点相符合。

横轴代表文章,纵轴代表文章分享次数。少数文章被大量的分享,而大多数文章则只有一两次分享。

