ドルヲタ系インフラエンジニア じーふーの備忘録

クラウドをメインに扱うインフラエンジニアが書くメモやら雑感、たまにドルヲタ的活動記録残します。最近の推しはAzureのData Factory(V2)です。

Azure Data Factory バージョン2 (v2)のGUI、統合ランタイム

こんにちは。

Azure Data Factory(以下、ADF)のバージョン2が2018年6月末にGA(一般公開)となりました。 ※GA(一般公開)とは、プレビュー版として提供していたサービスを一般的に公開することです

そこでADF v2で強化されたUI周り、また、統合ランタイムについてを簡単に記していこうと思います。

パイプライン作成画面

筆者自身、実際に使ってみてオオオ便利!!と思ったパイプライン作成画面について説明します。 まずは画面キャプチャをドーン!

f:id:fujikkoooooo:20180724145008j:plain
作成と監視画面

ADF V2にバージョンアップしたことで、GUIによるパイプラインの作成が格段に向上し、ADFがより使いやすくなったと筆者自身実感しています。
※V1のパイプライン作成に用いられるGUIについてはおいおい述べようと思いますので今回は割愛

この画面より、処理グループとなるパイプラインを新たに追加し、そのパイプラインで実行する処理(Activityと呼びます)、および、その処理に紐づくDataset、LinkedService等を設定していきます。
アクティビティはデータコピーアクティビティ、データ変換アクティビティ、データ制御アクティビティと多種用意されており、Activityメニューより選択し、ドラッグアンドドロップして追加することが可能となっております。 複数のアクティビティを設定し、それぞれを線でつないでいくことで一連の処理を設定していき、パイプラインが作成できます。

実際のパイプラインの作成手順に関しては今度詳しく記事にまとめようと思います。

統合ランタイムの登場

ADF v2で、統合ランタイムというADFの実行環境が構成されるようになっております。 統合ランタイムは以下の3種類が用意されております。

  • Azure統合ランタイム
  • セルフホステッド統合ランタイム
  • SSIS統合ランタイム

データ移動、HDInsight等の実行環境上で実施するデータ変換アクティビティのディスパッチ、SSIS(SQL Server Integration Service)のパッケージ実行を上記の統合ランタイムで実施する仕組みになっています。

以下、それぞれについて説明します。

Azure統合ランタイム

BlobストレージからAzure SQL DatabaseやAzure SQL DataWarehouse等、Azure環境上のPaaS間でのデータコピー等アクティビティを実行するための環境。
Azure統合ランタイムは各地のリージョン上に構成されており、データコピーを実施する際に、それぞれのデータソースのリージョンから、最適なリージョンで構成された統合ランタイムを判別し、データコピー処理を実施する仕組みになっております。 スケールも自動で実施されるため、常にベストなパフォーマンスでデータコピーを実施できる仕組みが備わった実行環境となっています。
※なお、スケールはデフォルトでは自動(Auto)設定になっていますが、手動で設定することも可能です。

セルフホステッド統合ランタイム

ADF v1でいうところの「Data Management Gateway」にあたるADF機能の実行環境です。 オンプレミス環境やAzureのVNet環境下に構成したデータソースとのデータのやり取りを行うために構成されます。例えば、オンプレミス環境上のWindowsマシンにセルフホステッド統合ランタイムをインストールし、プライベートネットワーク上のDBやファイルシステムからAzure上の各サービスに接続するための玄関口として機能させます。セルフホステッド統合ランタイムからの通信は暗号化されておりセキュアなデータのやり取りが可能となります。
Azure統合ランタイムでは、自動でスケールされると説明しました。セルフホステッド統合ランタイムもスケール構成を用意することが可能ですが、そのためには複数のwindows環境を用意し、それぞれにセルフホステッド統合ランタイムをインストールし、グループ化してあげることが必要となります。

SSIS統合ランタイム

※現在検証中のため、内容薄目ですが後日また記事にしますのでご了承ください。。 SSISパッケージを実行するための完全マネージドVM環境です。SSH接続等直接実行環境に接続することはできません。
SSISを実行するにあたりログ等の情報格納先となるカタログデータベースが必要となります。カタログデータベースはSQL Database上などに作成可能です。

まとめ

本日はADF v2のGUI画面の簡単な紹介と統合ランタイムについて説明しました。
次は実際にパイプラインをGUIを操作して作成する流れを記そうと思います。