当前位置:主页 > 技术文章 >

技术文章

Technical articles

如何手动写一个Python剧本自动爬取Bilibili小视频

时间:2022-01-19 01:23 点击次数:
  本文摘要:如何手动写一个Python剧本自动爬取Bilibili小视频B 站小视频网址在这里哦:http://vc.bilibili.com/p/eden/rank#/?tab=全部此次实验,我们爬取的是逐日的小视频排行榜前 top100我们该如何去爬取呢???

鸭脖

如何手动写一个Python剧本自动爬取Bilibili小视频B 站小视频网址在这里哦:http://vc.bilibili.com/p/eden/rank#/?tab=全部此次实验,我们爬取的是逐日的小视频排行榜前 top100我们该如何去爬取呢???实验情况准备1、Chrome 浏览器 (能使用开发者模式的浏览器都行)2、Vim (编辑器任选,老实人比力喜欢Vim界面,所以才用这个啦)3、Python3 开发情况4、Kali Linux (其实随便一个操作系统都行啦)API寻找&&提取我们通过 F12 打开开发者模式,然后在 Networking -> Name 字段下找到这个链接:http://api.vc.bilibili.com/board/v1/ranking/top?page_size=10&next_offset=&tag=%E4%BB%8A%E6%97%A5%E7%83%AD%E9%97%A8&platform=pc我们检察一下 Headers 属性我们可以看到Request URL这个属性值,我们向下滑动加载视频的历程中,发现只有这段url是稳定的。http://api.vc.bilibili.com/board/v1/ranking/top?next_offset 会一直变化,我们可以推测,这个可能就是获取下一个视频序号,我们只需要把这部门参数取出来,把 next_offset写成变量值,用 JSON 的花样返回到目的网页即可。

代码实现我们通过上面的实验写了段代码,发现 B 站在一定水平上做了反爬虫操作,所以我们需要先获取 headers 信息,否则下载下来的视频是空的,然后界说 params 参数存储 JSON 数据,然后通过 requests.get 去获取其参数值信息,用 JSON 的花样返回到目的网页即可,实现代码如下:为了能够清楚的看到我们下载的情况,我们折腾了一个下载器上去,实现代码如下:效果如下:将上面的代码举行汇总,整个实现历程如下:运行效果。


本文关键词:如何,手动,写,一个,Python,鸭脖,剧本,自动,爬取,如何

本文来源:鸭脖-www.huakongtx.com

Copyright © 2007-2021 www.huakongtx.com. 鸭脖科技 版权所有 备案号:ICP备85416942号-6

在线客服 联系方式 二维码

服务热线

0808-542796854

扫一扫,关注我们