一、介绍
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器from selenium import webdriver #导入模块,然后产生一个浏览器对象browser=webdriver.Chrome()browser=webdriver.Firefox() browser=webdriver.PhantomJS() browser=webdriver.Safari() browser=webdriver.Edge()
二、安装
1、selenium+chromedriver
pip3 install selenium下载chromdriver.exe放到python安装路径的scripts目录中即可,可以在中查看每个版本适用与那个浏览器下载链接:http://npm.taobao.org/mirrors/chromedriver/#验证安装 C:\Users\Administrator>python3 Python 3.6.1 (v3.6.1:69c0db5, Mar 21 2017, 18:41:36) [MSC v.1900 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> from selenium import webdriver >>> driver=webdriver.Chrome() #弹出浏览器,产生一个浏览器对象,后续就是通过这个浏览器对象来操作浏览器 >>> driver.get('https://www.baidu.com') #控制浏览器访问url >>> driver.page_source #打印访问url后返回的html信息 #注意: selenium3默认支持的webdriver是Firfox,而Firefox需要安装geckodriver 下载链接:https://github.com/mozilla/geckodriver/releases
2、selenium+phantomjs
#PhantomJS 是一个无界面的webkit内核浏览器,你可以把它当作一个没有界面的 Safaripip3 install selenium下载phantomjs,解压后把phantomjs.exe所在的bin目录放到环境变量中下载链接:http://phantomjs.org/download.html#验证安装 C:\Users\Administrator>phantomjs phantomjs> console.log('egon gaga') egon gaga undefined phantomjs> ^C C:\Users\Administrator>python3 Python 3.6.1 (v3.6.1:69c0db5, Mar 21 2017, 18:41:36) [MSC v.1900 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> from selenium import webdriver >>> driver=webdriver.PhantomJS() #无界面浏览器 >>> driver.get('https://www.baidu.com') >>> driver.page_source
三、基本使用
from selenium import webdriver #驱动浏览器from selenium.webdriver import ActionChains #作用链,主要用作滑动验证 from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys #键盘按键操作 from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait import WebDriverWait #与EC联用,等待页面中的某个元素被加载完成 browser=webdriver.Chrome() try: browser.get('https://www.baidu.com') input_tag=browser.find_element_by_id('kw') #通过id的方式查找元素,与input_tag=browser.find_element(By.CSS_SELECTOR,'#kw')的结果一样 input_tag.send_keys('美女') #python2中输入中文错误,字符串前加个u,在这个input标签内输入查找的字符 input_tag.send_keys(Keys.ENTER) #输入回车或者是查找到提交按钮点击都可以(# input_tag.click()) wait=WebDriverWait(browser,10) #产生一个等待的对象 wait.until(EC.presence_of_element_located((By.ID,'content_left'))) #等到id为content_left的元素加载完毕,最多等10秒 print(browser.page_source) #获取返回的网页html print(browser.current_url) #获取返回的网页url print(browser.get_cookies()) #获取返回的网页cookie finally: browser.close() #无论怎样关闭浏览器