技术,互联网,eLearning …
标签类目:分享

Google Reader的中文用户都在分享些啥

上周末写了个抓取程序,用来抓取Google Reader分享的Feed。由于分享的Feed里每一篇被分享的文章都列出了like该文章的用户ID,通过该用户ID可以拼出一个新的分享Feed。这样,以几个用户的分享作为种子,就可以获取大量的用户分享数据。

我的小破电脑吭哧吭哧地抓了一周,主要抓取中文用户的分享,其间又由于有些Feed里含有特殊内容而被connection reset了几次。到了周六早晨,共获得了11万个用户ID,其中,中文用户有2.7万(share或者like过中文文章的用户被认为是中文用户)。从抓取的过程来看,这2.7万用户应该是有过分享行为的中文用户里的绝大多数了。

被share最多的文章和被like最多的文章

对已经获得的数据做统计,被share最多的十篇文章是:

被like最多的十篇文章:

韩寒的文章被分享的次数最多,看来他的文章很对阅读器用户的胃口。另外一个被分享比较多的是可能吧,大家对IT类的科普文章还是很感兴趣的嘛。另外,同被share的文章相比,被like比较多的文章看起来知识性更强一些。

比较有意思的一篇文章是唐龙与藏獒(转),来自土摩托日记,被like和share的次数都很多,从标题上看是一篇转载文,不过用google搜索 “唐龙与藏獒”的时候,都是转帖,反而找不到该文章的原始出处和作者。看来一篇文章要想广为流传,不仅要有好的文章质量和独到的见解,还得借助有影响的媒介来传播。

用户的阅读时间

用户分享的Feed里有一个元素叫做gr:crawl-timestamp-msec,经过验证,这个时间在分享Feed里就是用户分享文章的时间。对这个时间做统计,就可以看出用户在哪些时间里使用阅读器。统计结果如下图:

阅读时间图

除了晚上睡觉的时间,用户在其他时间使用阅读器的频率似乎差不多,只能大约看出中午,晚上6点和晚上10点左右几个高峰期。这说明用户在工作时间也是在使用Reader的?

分享的长尾

对所有文章的分享次数做统计,最后得到一张图,很明显这张图与长尾理论的观点相符合。

分享的长尾

横轴代表文章,纵轴代表文章分享次数。少数文章被大量的分享,而大多数文章则只有一两次分享。

返回顶部