XSERVER で phantomjs を使って動的サイトをスクレイピングする

● XSERVER で phantomjs を使って動的サイトをスクレイピングする

(node.jsはあらかじめこちらの方法でインストールしておいてください。)
XSERVER で node.js を利用する|プログラムメモ

● XSERVER に phantomjs をインストールする

npm install phantomjs

● phantomjs の バージョン確認

./node_modules/phantomjs/bin/phantomjs -v

●(phantomjs 1)phantomjs でスクリプトを動かす( Hello World ! )

test_helo.js というファイル名で以下のファイルを作成

console.log('Hello, phantomjs');
phantom.exit();

phantomjs で実行する

./node_modules/phantomjs/bin/phantomjs test_helo.js

●(phantomjs 2)phantomjs でスクリプトを動かす( 動的サイトからのスクレイピング )

動的サイト「https://dev.to/top/week」からソースを取得します。

test_web.js というファイル名で以下のファイルを作成

var webpage = require('webpage').create();
var url = 'https://dev.to/top/week';

webpage.open(url, function() {
    console.log(webpage.content);
    phantom.exit();
});

phantomjs で実行する

./node_modules/phantomjs/bin/phantomjs test_web.js

これで「https://dev.to/top/week」のHTMLソースが表示されればOKです。

●(phantomjs 3)Curlの代わりに使用する

curl_phantom.js というファイル名で以下のファイルを作成

var system = require('system');
var args = system.args;

if ( ! args[1] ){
	console.log( 'ERROR: please set URL' );
	phantom.exit();
}

var webpage = require('webpage').create();
var url = args[1];

webpage.open(url, function() {
    console.log(webpage.content);
    phantom.exit();
});

phantomjs で実行する

./node_modules/phantomjs/bin/phantomjs  curl_phantom.js  https://dev.to/top/week
No.1423
01/23 10:07

edit