urllib库使用方法
urllib库是python的内置库,不需要单独下载。其主要分为四个模块:
1.urllib.request——请求模块
2.urllib.error——异常处理模块
3.urllib.parse——url解析模块
4.urllib.robotparser——用来识别网站的robot.txt文件(看看哪些内容是可以爬的,不常用)
1.urlopen
1 | import urllib.request |
超时读取
1 | import socket |
响应内容分析
1 | import urllib.request |
- request
用来传递更多的请求参数,url,headers,data, method
1 | from urllib import request, parse |
另一种方法添加headers
1 | from urllib import request, parse |
- Handler
代理
1 | import urllib.request |
- Cookie
获取cookie
1 | import http.cookiejar, urllib.request |
存储Cookie
1 | import http.cookiejar, urllib.request |
获取Cookie
1 | import http.cookiejar, urllib.request |
- UrlError 和 HttpError
1 | from urllib import request, error |