PHPプログラムに関する各種メモ書き

HTMLを取得(スクレイピング)してパース(解析)する

■ snoopy

http://sourceforge.net/projects/snoopy/

おもなメソッド解説

fetch($URI);
HTMLを取得

fetchtext($URI)
テキストのみを取得

fetchform($URI)
フォーム要素 <form>〜</form>のみを取得

fetchlinks($URI)
<a>タグのURIリストを取得

snoopyはどちらかというと、スパイダー(ロボット)に近いのでパーサとしては少し低機能ですが、使い勝手は非常にいいです。

■ simplehtmldom

http://sourceforge.net/projects/simplehtmldom/

require_once "simple_html_dom.php";
$html = file_get_html($url);
foreach($html->find('a') as $element){
	   echo $element->href . '
';
}
No.707
08/06 10:53

edit