python 爬取智联招聘

一个爬取智联的一个小爬虫

python版本:python3.7
依赖模块:selenium、pyquery
废话少说,上代码

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from pyquery import PyQuery as pq
import time
 
 
class ZhiLian:
    def __init__(self):
        # 设置 chrome 无界面化模式
        self.chrome_options = Options()
        self.chrome_options.add_argument('--headless')
        self.chrome_options.add_argument('--disable-gpu')
        self.driver = webdriver.Chrome(chrome_options=self.chrome_options)
 
    def get_url(self, search='python'):
        """
        获取搜索职位的url, demo里面默认搜索python
        :param search:
        :return:
        """
        self.driver.get("https://www.zhaopin.com/")
        element = self.driver.find_element_by_class_name("zp-search__input")
        element.send_keys(f"{search}")
        element.send_keys(Keys.ENTER)
        # 切换窗口
        self.driver.switch_to.window(self.driver.window_handles[1])
        # 等待js渲染完成后,在获取html
        time.sleep(4)
        html = self.driver.find_element_by_xpath("//*").get_attribute("outerHTML")
        return html
 
    def data_processing(self):
        """
        处理数据
        :return:
        """
        html = self.get_url()
        doc = pq(html)
        contents = doc(".contentpile__content__wrapper")
        for content in contents.items():
            jobname = content(".contentpile__content__wrapper__item__info__box__jobname__title").text()
            companyname = content(".contentpile__content__wrapper__item__info__box__cname").text()
            saray = content(".contentpile__content__wrapper__item__info__box__job__saray").text()
            demand = content(".contentpile__content__wrapper__item__info__box__job__demand").text()
            yield jobname, companyname, saray, ",".join(demand.split("\n"))
 
 
datas = ZhiLian().data_processing()
for data in datas:
    print(data)

运行结果:
在这里插入图片描述

相关推荐
<span style="color:#333333;font-size:14px;">课程介绍:</span> <br /> <p style="font-size:14px;background-color:#FFFFFF;">         全面系统的学习Python爬虫入门视频课程,从零开始掌握Python爬虫项目的编写,学会独立开发常见的爬虫项目,让掌握好Python基础的你,把Python用起来! </p> <br /> <p style="font-size:14px;background-color:#FFFFFF;">         1、学完能够 从零开始掌握Python爬虫项目的编写,学会独立开发常见的爬虫项目; </p> <p style="font-size:14px;background-color:#FFFFFF;"> <br /> </p> <p style="font-size:14px;background-color:#FFFFFF;">         2、学完能够掌握常见的 反处理手段,比如验证码处理、浏览器伪装、代理IP池技术、用户代理池技术等; </p> <p style="font-size:14px;background-color:#FFFFFF;"> <br /> </p> <p style="font-size:14px;background-color:#FFFFFF;">         3、学完能够熟练使用 正则表达式、 XPath表达式进行信息提; </p> <p style="font-size:14px;background-color:#FFFFFF;"> <br /> </p> <p style="font-size:14px;background-color:#FFFFFF;">         4、学完掌握 抓包技术,掌握 屏蔽的数据信息如何进行提,学会自动 模拟加载行为、进行网址构造、自动模拟进行 Ajax异步请求数据; </p> <p style="font-size:14px;background-color:#FFFFFF;"> <br /> </p> <p style="font-size:14px;background-color:#FFFFFF;">         5、熟练掌握urllib模块, 熟练使用Scrapy框架进行爬虫项目开发。 </p>
©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页