首页 爬虫

爬虫

  • Python python爬虫之字体反爬及解决方案

    在爬取某些网站的数据时,经常会发现爬下来的数据夹杂着乱码;但是网页上明明是正常的,这就是此网站做了字体反扒技术;比如  https://su.58.com/qztech/ 这个网站,页面上看起来是正常的数据,但是审查元素会发现,都是乱码,如果我们去除了右下角红框标注的字体文件,会发现页面也会出现乱码其实,这种字体文件,实质上就是一个字典,记载了乱码余正确数据之间的对应关系,在显示的时候,把“乱码” 替换成正确的数据其实我们要做的很简单,就是把字体文件复制下来,保存为ttf,然后需要显示...

     薄洪涛  2019-03-16  335浏览  0评论
  • Python python爬虫第二篇之安居客

    最近考虑换个环境,打算去租个房子,但是租房信息那么多,我们能不能把它爬取下来做个统计,看看什么价位的房子最多,哪个地段的房子最便宜呢在爬取之前,请大家安装下BeautifulSoup库和requests库还有pymysql库安装方法有两种:1、cmd中pip install + 库名安装2、pycharm中File-setting-project-InterPreter,按照下图所示安装就可以了安装BeautifulSoup如果你是python3,请选择安装BeautifulSoup4解释下这几个库的作用:Requ...

     薄洪涛  2018-10-23  201浏览  1评论
  • Python python爬虫第一篇之环境的搭建

    爬虫入门知识及环境的搭建今天我们来学习下爬虫一、 什么是爬虫如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频)二、环境的搭建要学习爬虫,我们必须搭建python环境,这里我推荐大家使用Anaconda集成环境,因为Anaconda内置了Python环境,而且...

     薄洪涛  2018-06-25  141浏览  0评论
1