用hpricot爬html結構

hpricot : http://code.whytheluckystiff.net/hpricot/

一開始先用

doc = Hpricot(open('http://webbbs.gamer.com.tw/search.php?keyword=%B5%7B%B3%5D&author=&brd=Chat'))

來打開網址,接著譬如要抓<table class = “ssize">就用

tab = (doc/'table[@class="ssize"]')

如果要再往table裡面爬,就用

(tab/'tr')

就以此類推即可

廣告

用hpricot爬html結構” 有 5 則迴響

  1. hpricot在windows底下跑gem update的時候會無法編譯… 哪天被搞到不爽了就是轉到nokogiri的時候啦!

  2. 昨天在 friendly_format 上試做了 nokogiri, 他吐出的 AST 比較像 libxml, 有點複雜… 這樣看來的話,hpricot 堪用就用 hpricot 吧 @@

    不過 nokogiri 底層是 libxml 比 hpricot 強很多就是了

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s