次元ACG资源站
恰饭广告-2019-12-30过期

tuwan的cosplay图集(1)

cosplay, 绅士福利 凌志夜风 - 11
关于解压密码:全站资源默认为「cyacg.cn有任何问题请在文章下评论留言,或者加群私聊站长!!
:微信公众号搜索:「cyacgdm或者次元0v0
恰饭广告-2019-12-30过期

帖子搬的,没有授权,违规删除 前几天玩游戏时,lol盒子右下角有条广告, 广告大概这个样子  

咦,小姐姐,还有cosplay,点进去看看。 哇,发现一个好玩的网站,好多漂亮的妹子,页面打开很流畅,点开后有的浏览页面还有好听的音乐,产品体验极佳。  

 

后面是大佬操作要图集的直接点下载 ctrlC+ctrlV几张后不乐意了,这么保存一来看不到全部图片,二来,麻烦,太麻烦了。 俗话说,妹子是第一生产力,鲁迅有云,懒人创造美好世界。 试试吧,看能不能发现点有趣的东东。首先习惯性的看看html源码,blabla一堆,头大,pass。

从页面源码来看,页面应该是前端渲染出来的,直接解析爬虫爬的话会比较麻烦。既然是前端渲染,那再看看请求吧,首页肯定是加载相册列表,没啥大用处,直接看加载具体某一相册的请求结果,点开某一相册,跳过图片,看看有没有什么可用的接口,果然有。

复制出来,浏览器走起,请求后返回如下信息

很明显是该相册的详细信息获取接口,可是怎么有些像是被编码过的东西。既然被编码了,解码出来瞧瞧,postman走起。postman顺利解析出结果

下翻翻看,发现了一个神奇的链接,是个zip压缩包,嗯,有点意思

下载回来解压,哈哈,居然是该相册的所有照片。

看返回的结果,很明显使用了jsonp,于是接着试着减少参数,去除了返回结果中恼人的无用回掉前缀,最后简化到仅剩一个参数,id,这接口太呆萌了。

此外还发现了网页上音乐的地址

至此该网站的“核心资产”已经被扒的底裤都没了,2333,下面开始批量爬吧。 有两种思路,一种是利用主页调用的获取相册列表参数接口来获得相册列表再通过列表爬压缩包地址,另外一种是直接从1开始依次尝试到首页最新的一个相册对应的id。最终决定采用第二种思路,因为这样即使首页隐藏的相册通过这种方式也能被发现。 开搞,建数据库,数据表,为方便后续追加执行,以及放在服务器上爬,所以采用springboot配合异步调用来实现。一开始使用post方式进行调用,结果尝试抓取了一两百条后到数据库一看,怎么这么多重复的啊,而且怎么同一个id和我用postman直接调得到的结果不一致?很可能开反爬了。 转变思路,postman采用的是get方式,所以程序试试也使用get方式进行调用,同时加入线程随机睡眠时间和User-Agent请求头,以此模拟普通用户的浏览器访问行为。bingo,顺利的抓取到了正确的图包名称、下载地址地址、音乐名称、音乐下载地址等信息

扔服务器上爬吧。等了大概十几分钟,爬完后总共获取到892条有效的图包记录,202条有效的音乐记录。

爬到地址后可不能算结束,还得把真正的压缩包都下载回来,写个批量下载的方法,服务器走起,然后便开始吭哧吭哧的下载,速度还行,能接近7MB/S。

从上午11点开始到晚上9点下载完成,总共耗时10个小时,从服务器上全部下载回来吧。

经过漫长的等待后,终于下载完,写了个脚本统计结果,最终:总共获取到了46187张图片,大小36.5GB。

最新图包获取方法 使用程序进行下载 需要有一定的java web基础,源码都提供了,随便玩喽 运行及下载说明可以戳这里 https://github.com/jrhu05/jerryWebSpider/blob/master/README.md


如果对爬虫源码感兴趣的可以戳这里:https://github.com/jrhu05/jerryWebSpider ,觉得不错的话记得点个赞哦。

总链:

1-100 链接:https://pan.baidu.com/s/1Ed4o-4PtprwJNgg_-gbicw 提取码:ytdc

101-200 链接:https://pan.baidu.com/s/1sCiVdi3R3j4RfFVBHN1Z0A 提取码:imxg

201-300 链接:https://pan.baidu.com/s/1ysS00LAgOKfr5GNp3ZIIdQ 提取码:v6zj

301-400 链接:https://pan.baidu.com/s/1xdIyzNd2TeRGYVq-Mo2oGA 提取码:yhbi

401-500 链接:https://pan.baidu.com/s/1RU1WyGr7jheigk_cEhGmEw 提取码:ljgj

501-600 链接:https://pan.baidu.com/s/1fzWH33foTwsGBJKOpYcX8w 提取码:1djs

601-700 链接:https://pan.baidu.com/s/1AutMAorxA5iFKVjlKhUcBQ 提取码:z6no

701-800 链接:https://pan.baidu.com/s/1OUAJWSZzOTTRmMV_j9SYNQ 提取码:sca0

801-900 链接:https://pan.baidu.com/s/1Xl3NwEs92gumN9vN8uf6zQ 提取码:g7an

901-1000 链接:https://pan.baidu.com/s/1CO1d1T2rredDEoVUALi2Ng 提取码:9y6r

1001-1100 链接:https://pan.baidu.com/s/1tIvBGt4RSK7-l4ym326UTQ 提取码:7l9i

1101-1200 链接:https://pan.baidu.com/s/1myd1xHQAjWeTWr-JS5JTIw 提取码:7t0o

1201-1250 链接:https://pan.baidu.com/s/1AqA5RY-lMQwrZloLzWd9Yg 提取码:pk31

1251-1300 链接:https://pan.baidu.com/s/1lKusdxgQHsrAnUQ7q-dmrA 提取码:mcgu

1301-1400 链接:https://pan.baidu.com/s/1e43L_AXLHs7ZDHYZut4ehA 提取码:vlvv

解压码:blog.hytcshare.com

版权所有 © 次元ACG资源 2017~2019 by未来 本站已安全运行了: