利用python解析html代码

常用的用来解析html的库有 BeautifulSoup 和 lxml。bs比较重，语法比较全面，lxml比较轻量，用xpath的语法。下面就来分别介绍下这两个库的用法

首先，我们准备一段html代码

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

xpath语法传送门

from lxml import etree
html = etree.HTML(text)
# 以下为一个列表
years = html.xpath('//year')
# 找到某一个节点的文字
print years[0].text