製薬、BioTech のパターン

ゲノム データの変異解析(二次解析)

解決する課題・使い所


ゲノム データの変異解析フロー

以下の図は、ゲノム データの変異解析の全体フローを示しています。主に、図中に記載されている二次解析(Secondary Analysis)におけるアラインメントやバリアント コールのアーキテクチャについて説明します

Cromwell のアーキテクチャ

以下の図は、Cromwell と Cloud Life Sciences API で GATK のベスト プラクティス ワークフローを実行するための一般的なアーキテクチャを示しています

Identity-Aware Proxy

ウェブサイトへのリクエストをインターセプトし、リクエストを送信したユーザーを認証して、認証されたユーザーにのみサイトへのアクセスを許可するという一連の処理を行うサービスです


Cloud Firewall Rules

指定した構成に基づいて、仮想マシン(VM)インスタンスとの接続を許可または拒否できます。また、ファイアウォール ルールはネットワーク レベルで定義されますが、接続はインスタンスごとに許可または拒否されます


Compute Engine

Google Cloud のインフラ上に、VM を立ち上げることができるサービスです


Cloud SQL

Google Cloud 上のリレーショナル データベースの設定、維持、運用、管理を支援するフルマネージドのデータベース サービスです


Cloud Life Sciences

コンテナ化されたワークフローで、大規模なゲノム データや生物医学データを処理、分析、アノテーション付けなどに利用できるサービスです


DeepVariant のアーキテクチャ

以下の図は、Google Cloud で DeepVariant パイプラインを実行するためのアーキテクチャを示しています

Cloud Life Sciences

コンテナ化されたワークフローで、大規模なゲノム データや生物医学データを処理、分析、アノテーション付けなどに利用できるサービスです


Compute Engine

Google Cloud のインフラ上に VM を立ち上げることができるサービスです


Cloud Storage

Google Cloud のオブジェクト ストレージ サービスです。保存するデータ量に制限はなく、マルチリージョンまたはデュアル リージョンにデータを保存することで、地理的な冗長性を構成することができます


利点

ゲノム データの変異解析(三次解析)

解決する課題・使い所


ゲノム データの変異解析フロー

以下の図は、ゲノム データの変異解析の全体フローを示しています。主に、図中に記載されている三次解析(Tertiary Analysis)において、VCF ファイルを BigQuery に格納するためのアーキテクチャについて説明します。

Container registry Docker

コンテナ イメージの一元的な管理と脆弱性分析を行えるサービスです


Cloud Storage

Google Cloud のオブジェクト ストレージ サービスです。保存するデータ量に制限はなく、マルチリージョンまたはデュアル リージョンにデータを保存することで、地理的な冗長性を構成することができます


Life Sciences

コンテナ化されたワークフローで、大規模なゲノム データや生物医学データを処理、分析、アノテーション付けなどに利用できるサービスです


Dataflow

フルマネージドでデータを処理することができ、自動プロビジョニングや、高速で費用対効果の高い、統合されたストリーミング処理とバッチ処理ができるサービスです


BigQuery

サーバーレスでスケーラビリティと費用対効果に優れたマルチクラウド データ ウェアハウスです。標準 SQL を使用して、ペタバイト規模のデータを高速に分析でき、運用のオーバーヘッドも発生しません


利点

HPC (High Performance Computing) を使ったゲノム データ解析

解決する課題・使い所


ゲノム データの変異解析フロー

Compute Engine

Google Cloud のインフラ上に VM を立ち上げることができるサービスです


Cloud Storage

Google Cloud のオブジェクト ストレージ サービスです。保存するデータ量に制限はなく、マルチリージョンまたはデュアル リージョンにデータを保存することで、地理的な冗長性を構成することができます


Slurm のアーキテクチャ

SchedMD の Slurm は、HPC の領域でよく使われているオープンソースのジョブ スケジューラです。

Compute Engine

Google Cloud のインフラ上に VM を立ち上げることができるサービスです


利点

Hail を使ったゲノム データ解析

解決する課題・使い所


アーキテクチャ

Cloud Dataproc

Apache Spark、Apache Flink、Presto をはじめ、30 以上のオープンソース ツールやフレームワークを実行するための、フルマネージドでスケーラビリティの高いサービスです


Compute Engine

Google Cloud のインフラ上に VM を立ち上げることができるサービスです


利点