2022年就过去了,用我之前写的python脚本抓取公众号阅读数点赞数在看数留言数做数据分析, 这里以微信派2022年的文章为例:
详情:
视频更新版:批量下载公众号文章内容/话题/图片/封面/音频/视频,导出html,pdf,excel包含阅读数/点赞数/留言数mp.weixin.qq.com/s/c-jpCXxUtZpzxTCSx0Fu_w
脚本下载的文件有文章内容html,文章链接markdown,文章数据excel,数据包含文章日期,文章标题,文章链接,文章简介,文章作者,文章封面图,是否原创,IP归属地,阅读数,在看数,点赞数,留言数,赞赏次数等。
然后用python pandas分析excel里的数据:
>>> wechat=pd.read_csv('2022公众号微信派数据.csv',encoding='utf-8')pd.set_option('max_colwidth',1000)pd.set_option('display.width', 1000)pd.set_option('display.max_columns',None)>>> wechat
文章总数量168:
>>> len(wechat)168
原创只有1篇:
>>> wechat.是否原创.value_counts().sort_values(ascending=False).head(5)否 167是 1就是这篇:
咳,通知下:今天历史老师有事请假了mp.weixin.qq.com/s?__biz=MjM5NjM4MDAxMg==&mid=2655109290&idx=1&sn=ceacf98fcbe5897e15abf5999d9d4169&chksm=bd5f4ca98a28c5bf4258056cc9d67d6ef27d3e77ae6d59cf733b8114d350258f82c0e2d15d00&scene=27#wechat_redirect
>>> wechat[wechat.是否原创=='是'][['文章日期','文章标题','文章链接']] 文章链接111 2022-05-16 ... http://mp.weixin.qq.com/s?__biz=
头条164篇,次条4篇
>>> wechat.文章位置.value_counts().sort_values(ascending=False).head(5)1 1642 4>>> wechat.query('文章位置 == 2')[['文章日期','文章标题','文章链接']]85 2022-06-20 ... http://mp.weixin.qq.com/s?__biz=MjM5Nj92 2022-06-14 ... http://mp.weixin.qq.com/s?__biz=94 2022-06-13 ... http://mp.weixin.qq.com/s?__biz=97 2022-06-08 ... http://mp.weixin.qq.com/s?__biz文章作者只有2个,可能大部分没填:>>> wechat.文章作者.value_counts().sort_values(ascending=False).head(5)不会画 1持锤鉴宝的 1
阅读数10万 的文章有10篇:
10周年,公众号是什么?mp.weixin.qq.com/s?__biz=MjM5NjM4MDAxMg==&mid=2655117991&idx=1&sn=ef7940e9b379ef981796cead8897f2b6&scene=21#wechat_redirect
十年之约mp.weixin.qq.com/s/iErUES6vHDnNXZwoGh5F5A
>>> wechat[wechat.阅读数>100000] 文章日期 文章标题 ... 视频数 音频数57 2022-08-17 10周年,公众号是什么? ... 0 059 2022-08-17 2012.8.17,微信公众平台上线了 ... 0 0127 2022-03-16 微信里的抗疫服务小全套 ... 0 0134 2022-02-22 微信支付关于个人收款码相关情况的公告 ... 0 0142 2022-01-27 三句话,你就能做自己的红包封面! ... 0 0144 2022-01-26 微信拜年红包,发! ... 0 0150 2022-01-24 微信红包封面,裂开了 ... 0 0156 2022-01-17 限量红包封面来了!邀你看很酷的中国 ... 0 0158 2022-01-13 红包封面变了,变异了 ... 0 0165 2022-01-01 2022年这些第一次,送给你… ... 0 0
总阅读数6290254
>>> wechat.阅读数.sum()6290254
有原文链接的文章有13篇:
>>> wechat[wechat["原文链接"].notnull()] 文章日期 文章标题 ... 视频数 音频数0 2022-12-31 设置提醒5,30 ... 0 01 2022-12-31 仔细看!这张订单有个小改变 ... 0 061 2022-08-11 包括我:46180000个 ... 0 063 2022-08-05 微信<2.4s ... 0 071 2022-07-25 优秀! ... 0 083 2022-06-27 官宣!我们走到一起了@腾讯地图 ... 0 087 2022-06-19 我和我爸爸的故事@腾讯 ... 0 094 2022-06-13 @微信支付智慧生活 ... 0 095 2022-06-13 12320有了微信客服 ... 0 0105 2022-05-25 @网易云音乐,谢谢你的歌 ... 0 0122 2022-04-01 张国荣《热·情》演唱会,超清修复版全球首播 ... 0 0140 2022-01-31 今晚8点,竖屏看春晚 ... 0 0157 2022-01-13 2021年你刷到的,都喜欢吗? ... 0 0
平均阅读数,点赞数,在看数和留言数:
>>> wechat[['阅读数','点赞数','在看数','留言数']].mean()阅读数 37441.988095点赞数 222.875000在看数 90.625000留言数 40.291667wechat[wechat.文章位置 == 1][['阅读数','点赞数','在看数','留言数']].mean()阅读数 38210.103659点赞数 226.939024在看数 92.408537留言数 40.768293
阅读数前10的文章:
>>> wechat[['文章日期','文章标题','文章链接','阅读数']].sort_values(by='阅读数', ascending=False).head(10) 文章链接 阅读数156 2022-01-17 限量红包封面来了!邀你看很酷的中国 http://mp.weixin.qq.com/s?__biz=MjM5N 100001150 2022-01-24 微信红包封面,裂开了 http://mp.weixin.qq.com/s?__biz=M 10000159 2022-08-17 2012.8.17,微信公众平台上线了 http://mp.weixin.qq.com/s?__biz=MjM5N 100001127 2022-03-16 微信里的抗疫服务小全套 http://mp.weixin.qq.com/s?__biz=MjM 100001134 2022-02-22 微信支付关于个人收款码相关情况的公告 http://mp.weixin.qq.com/s?__biz=Mj 100001142 2022-01-27 三句话,你就能做自己的红包封面! http://mp.weixin.qq.com/s?__biz=Mj 100001144 2022-01-26 微信拜年红包,发! http://mp.weixin.qq.com/s?__biz=MjM 10000157 2022-08-17 10周年,公众号是什么? http://mp.weixin.qq.com/s?__biz=MjM5Nj 100001158 2022-01-13 红包封面变了,变异了 http://mp.weixin.qq.com/s?__biz=MjM 100001165 2022-01-01 2022年这些第一次,送给你… http://mp.weixin.qq.com/s?__biz=Mj 100001
然后再分析留言数据excel文件,包括文章日期,文章链接,文章标题,留言昵称,留言内容,留言点赞数,留言回复,留言时间,留言地区等。
python分析留言次数最多的10个小伙伴
>>> wechat2.评论昵称.value_counts().sort_values(ascending=False).head(10)喵 50万景明 47ㅤ 43迷路的男人 41Korin 38谢卓锟 37宗琦 35ㅤ樱桃小玩子 33HM灬涛 25Enemy 23
顺便再统计下留言中省份最多的10个,广东排第一。
def data(df): df2=df.省份.value_counts().sort_values(ascending=False).head(10) ip = df2.index.tolist() counts = df2.values.tolist() bar = ( Bar() .add_xaxis(ip) .add_yaxis("", counts) ) pie = ( Pie() .add("", [list(z) for z in zip(ip, counts)],radius=["40%", "75%"], ) .set_global_opts(title_opts=opts.TitleOpts(title="饼图",pos_left="center",pos_top="20")) .set_global_opts(legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical")) .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {d}%"), ) ) pie.render('统计数据.html')data(wechat)
还有什么数据可以分析的?
下载的文章内容是html文件,可以用谷歌浏览器打开,html再批量转换成pdf。
将转换后的pdf再合并成一个文件并生成书签 :
苏生不惑又写了个小工具mp.weixin.qq.com/s?__biz=MzIyMjg2ODExMA==&mid=2247497248&idx=1&sn=68a704f67fe5f9c869a0e273623aa12f&scene=21#wechat_redirect
文章下的留言也在pdf文件里,点击左侧标题书签可以跳转到对应文章:
另外这个号所有历史文章也同步到博客了 https://sushengbuhuo.github.io/blog/#/wechat/微信派公众号文章列表 ,10年前的文章很快就能找到,第一篇文章是2013年发布的这篇 mp.weixin.qq.com/mp/appmsg/show?__biz=MjM5NjM4MDAxMg==&appmsgid=10000002&itemidx=1&scene=27
最近原创文章:
2022 年 10 月公众号深圳卫健委历史文章无水印封面表情包,分享到网盘了
一键批量下载微信公众号文章内容/图片/封面/视频/音频,支持导出html和pdf格式,包含阅读数/点赞数/在看数/留言数
更新版:整理下苏生不惑开发过的那些工具和脚本