常用的用来解析html的库有 BeautifulSouplxml。bs比较重,语法比较全面,lxml比较轻量,用xpath的语法。下面就来分别介绍下这两个库的用法

首先,我们准备一段html代码

1
2
3
4
5
6
<book>
<title>Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>

lxml

xpath语法 传送门

1
2
3
4
5
6
from lxml import etree
html = etree.HTML(text)
# 以下为一个列表
years = html.xpath('//year')
# 找到某一个节点的文字
print years[0].text

pyquery

官方文档地址 | 简易教程 | jquery选择器

BeautifulSoup