爬虫的一些简介, 想起来多少是多少吧, 网上的文章很多, 建议多看看其他文章, 这里仅提出自己的一点见解, 此处不讲爬行的昆虫
# 爬虫是什么
是一个程序, 用来批量从各目标网站批量收集获取数据的一种程序的称呼. 最常见的爬虫就是搜索引擎了, 收集各种网页内容供用户检索.
但是爬虫也有不好的一部分, 比如各种非法爬虫获取我们网站辛辛苦苦收集的数据以及用户隐私, 无视网站声明, 拒绝遵守网站的爬虫协议, 肆意爬取数据, 不顾网站的性能, 甚至以杀鸡取卵的方式获取数据. 这就是有害爬虫.
# 常见有害爬虫的分类以及危害
危害嘛, 影响网站以及网站用户的利益, 让网站决策者做出错误的判断, 导致网站宕机, 倒闭等
- 以文章为目的的爬虫, 如
字节跳动
前期大量爬取其它网站文章发布到今日头条
, 产生不正当竞争, 直接影响目标网站的用户量. 或者各种小说网站的爬虫, 导致盗版小说络绎不绝, 严重影响网站和作者的收益. - 以用户公开数据为目标的爬虫, 如爬取各个论坛/购物网站的用户评论, 用来做目标网站数据分析, 自动水军等等.
- 以图片为目的的爬虫, 如对图片网站(摄影, 图片社区等), 无视版权直接影响网站和作者利益的; 爬取用户自拍做人脸识别训练的; 刷第三方网站的验证码, 用来做机器识别; 更有甚者把其它网站的图片服务器做自己的免费图床使用. 还有网上常见的闲的蛋疼的
xx行代码爬取xx网站的小姐姐
(实不相瞒, 鄙人非常反感各种对女性有侮辱/贬低等无礼无知见解) - 以数据为目的爬虫, 比如
车来了
(元光)爬取竞品酷米客
(谷米)的各种数据为自己服务, 直接影响竞品的利益(也被称为全国首宗 “ 爬虫 ” 软件案
) - 以干扰为目的的爬虫, 比如在
哔哩哔哩
刷弹幕的, 在各论坛评论区瞎评论的, 恶意在购物网站下单的, 这些大多数都太无耻了, 也不算太多, 毕竟太容易被发现了. - 恶意刷各种浏览量的, 有些网站的作者为了自己能在网站中有立足之地, 恶意同其它作者竞争, 影响网站的推送算法, 甚至让网站老板以为自己的网站大受欢迎花钱买服务器结果发现自己被耍了.
- 收集用户隐私信息, 如公开的身份证号手机号邮箱等
- 等等...
← 内置策略