ambariを使ったhadoopクラスタ構築は、1からHadoopクラスタを構築するよりもかなり楽ですが、実際には色々とハマリどころがあります。ネット上に情報も少ないので、意外と手間取ります。
Hadoopクラスタ管理ツールのAmbariをGCPで試す場合、最もおすすめの方法は、bdutilです。
HORTONWORKSとGCP謹製のambari構築用エクステンションが用意されています。
GCPを日常的に使っている方ならば、ごく簡単にambariを試すことができます。
手順
基本は、上記の通りですが、いろいろと説明が含まれてるので、手順をまとめます。
projectIdをセットする
gcloud config set project ${projectId}
Storageでバケットを作る
gsutil mb -p ${projectId} gs://${bucketName}
bdutilをクローンする
git clone https://github.com/GoogleCloudPlatform/bdutil cd bdutil
バケットを以下のように設定します
grep BUCKET= bdutil_env.sh CONFIGBUCKET=${bucketName}
ambari.confを確認する
ambari.conf# チェックすべき箇所は、ワーカー数(+1マスターが立ち上がる)と、マシンタイプです。 デフォルトで起動すると、月間110ドル程度のインスタンスが5個立ち上がります。 NUM_WORKERS=4 GCE_MACHINE_TYPE='n1-standard-4'
deployする
# bdutil以下で。 ./bdutil -e ambari deploy
SSHトンネルを設定する
gcloud compute config-ssh ssh -L 8080:127.0.0.1:8080 hadoop-m
管理画面にアクセスする
open http://localhost:8080/
インスタンスにアクセスする
gcloud compute ssh hadoop-m # ここでHadoopクラスタを使うことができます
deleteする
# bdutil以下で。 ./bdutil -e ambari delete
公式ambari をDebian 8に入れる時に
ambari 2.2.2 install ambari 2.2.2 は、Debian7のリポジトリしか載っていませんが、Debian8でもそのままインストールできます。
BigQueryや、トレジャーデータなど、フルマネージドのサービスでは、ニーズに合わないということで、自前のクラスタを立ち上げる場合に、このような管理ツールはかなり役立ちます。
0 件のコメント:
コメントを投稿