Python爬半次元的小姐姐 – Python Spider For BYC

于是上星期说了这星期把半次元的爬虫放出

Github上持续更新:SakuraLove/PythonSpiderForBCY

我捣鼓了几天但是还是有点问题,那就先把初代的发出来,初代的仅能get到 http://bcy.net/u/{id}/post/cos 里面的图片,详细页面里面的图片仍未能获取。

获取详细页面的思路

实现:

先引入bs4等库

首先先前往bcy.net,进入某个coser的主页,然后分析其链接结构:

于是在链接中能够看见链接为 http://bcy.net/u/{id}/post/cos ,于是就能写一个输入id来获取链接

然后就能使用request抓取页面。

但在抓取并输出后,我们发现输出的内容是404,于是我们就要开始考虑反爬虫的问题。

在requests库中,如果未定义header的话user_agent会使用python,那么我们就需要递交一个包含浏览器user_agent的header信息

此时,我们就能正确抓取页面了。再而,我们就需要用到bs4进行解析,然后我们在浏览器中对html的分析中可以得出,图片包含在一个 postWorkCard__img ovf的div中

然后在进行遍历,获取在此div中的img的scr的内容

并且我们发现半次元采用的cdn对图片有处理,于是我们用正则把图片链接后的/tl640删去便能获取无压的图片。

然后在加上下载的代码,便能获取图片

 

初代:

分享到:

4 条评论

昵称

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据

  1. 月宅

    爬过哔卡的表示它服务器实在太慢了,24小时才不到1千张Σ(っ °Д °;)っ实在是太狗血了

    1. 很懒的樱花

      我爬半次元的图,单线程几分钟就过千了

  2. 老黄

    666

    1. 很懒的樱花

      泥嚎