アプリケーションノート
TruAI™ ディープラーニングテクノロジーを使用した酵母タンパク質局在化の分類
人工知能(AI)の実用性
人工知能(AI)技術は、顕微鏡画像データを大量に処理する研究者の手作業による負担を軽減するのに役立ちます。学習済みのTruAI™ディープラーニングニューラルネットワークでは、複雑なデータセットの自動オブジェクトセグメンテーションが可能ですが、どの程度柔軟性があり、効率向上に貢献できるでしょうか。このアプリケーションノートでは、酵母内のタンパク質局在化を分類するハイコンテントアッセイという特に難易度の高いアプリケーションを例に、TruAIテクノロジーの能力を検証します。
課題:ハイコンテント蛍光スクリーニングで酵母を分類
タンパク質の細胞内位置を知ることは、生物学的機能を理解するために重要な必須事項です。モデル生物Saccharomyces cerevisiae(以降、酵母)内のタンパク質の位置を調べるため、科学者たちはゲノム全体における変異体の包括的コレクションを開発しました。これらの変異体は、蛍光マーカーによる標識が可能なタンパク質がN末端[1,2]またはC末端[3,4]に存在します。このことから、変異体タンパク質の蛍光パターンを研究することで、その位置を顕微鏡で観察できます(図1参照)。
図1:酵母内で蛍光のタグ付けされたタンパク質の細胞コンパートメント局在化。視覚化されたコンパートメント(左)とタグ付けされた各タンパク質の標準名(右)が各画像にラベル付けされています。
酵母には全部で約6,000個の遺伝子があります。したがって、これらの遺伝子全体の変異体のコレクションには、約6,000の変異株がそれぞれ必要です。特定の研究課題に合わせてコレクションを作成するために、数千もの酵母株の遺伝子操作を同時に行えるハイコンテント法が開発されました。このために、例えばゲノム全体の蛍光変異コレクションに遺伝子欠失を取り入れたり、2番目の蛍光マーカーを導入して、異なるタンパク質間の空間的関係を評価したりします。大量の変異コレクションなどの効率的な処理や、自動顕微鏡法による画像取得には、より合理化された方法を利用できます[5]。しかし、こうした効率的画像処理の妨げとなるのが、蛍光パターンによるタンパク質局在化の判別のために生成される大量の画像データの解析です。
このアプリケーションノートでは、TruAI™ディープラーニングテクノロジーをscanRハイコンテントスクリーニングプラットフォームと組み合わせて使用し、各種酵母株(図1)について、さまざまな細胞内コンパートメントのタンパク質局在化を自動的に分類するための、蛍光パターンに基づくAIモデルの作成方法を紹介します。
グラウンドトゥルースの注釈付けとAI学習
どのAIモデルの開発においても、最初のステップは、画像の特定の画素パターンを特定のクラスに関連付けるグラウンドトゥルースの作成です。標準的な画像セグメンテーション作業の場合、ソフトウェアのラベリングツールを使って手動で簡単に注釈付けできます[6]。しかし、モデルによる識別が必要なクラスが多くなるほど、必要なグラウンドトゥルースも多くなるので、注釈付けの手間が増え、非効率で面倒な作業になります。
多種多様な株に対して効果的に一般化できるモデルや、さまざまなイメージング条件に適合可能なモデルの作成を目指す場合、作業はますます困難になります。このような条件には、焦点品質、蛍光コントラスト、SN比などの面が含まれ、どれも注釈に適切に盛り込む必要があります。
この問題に対処するため、TruAIツールをシームレスに組み込んだscanRハイコンテントスクリーニングソフトウェアを使う、スマートサンプル調製法を採用しました。このソフトウェアによってグラウンドトゥルース注釈の自動割り当てが合理化され、プロセスが大幅に簡単になります。
384ウェルプレートを使い、局在化が既知の蛍光標識タンパク質を発現しているさまざまな変異株を調製し、撮影しました。全部で12の局在化を代表するものを選びました。その内訳は、細胞末端、核周縁部、小胞体(ER)、エイソソーム、ミトコンドリア、液胞、液胞膜、サイトゾル、核、核小体、bud neck、bud tipです。各局在化クラス内で表現型を変動させるため、局在ごとに複数の独立株を選択した結果、学習に使用する株が全部で133株になりました(図2)。
図2:グラウンドトゥルースサンプル調製の384ウェルプレートレイアウト。各ウェルは、特定のタンパク質がN末端でGFPによりタグ付けされた株に対応しています。同じ列にあるすべての株は、同じタンパク質局在化を共有し、同じクラスのグラウンドトゥルースに割り当てられました。
イメージングにはscanR広視野顕微鏡と40x乾燥系対物レンズ(NA 0.95)を使用しました。単一の酵母細胞を識別するため、ソフトウェアに内蔵の学習済みAIモデルを使用して、透過チャンネルでセグメンテーションを実行しました[7](図3)。アーチファクトと異常細胞を除外するため、得られたオブジェクトを真円度係数と面積でフィルタリングしました。すべてのセグメントマスクは、セグメント化された酵母ごとに、パラメーター情報が格納された1つのファイルに自動的に保存されます。この情報には、その酵母が属するウェル(つまりクラスと株)、正常細胞または異常細胞としてフィルタリングされたかどうかなどが含まれます。このファイルはscanRソフトウェアのTruAIインターフェース内で使用され、12クラスの正常細胞についてグラウンドトゥルース注釈が作成されます。異常細胞としてフィルタリングされたすべての画素は、学習では無視されます。このようにして4,000~15,000の注釈がクラスごとに取得され、さまざまな株と典型的な画像変化(焦点、画像コントラスト、信号強度、細胞残屑など)がカバーされます。
すべてのセグメンテーションが終了し、グラウンドトゥルースが割り当てられた後、TruAI学習構成が設定されました。オプションとして[Generalizing Network]と[Semantic Segmentation]を選択し、画素クラスのオーバーラップを有効にして、350,000回反復学習させました。
図3:透過チャンネル(示されていません)でセグメント化された個々の細胞のセグメンテーションマスク(緑)。蛍光信号は、A) 細胞末端(ウェル60、C12)、B) 液胞(ウェル266、L2)、C) ミトコンドリア(ウェル147、G3)に局在化するタンパク質を表します。scanRソフトウェアでは、セグメンテーションマスク、蛍光チャンネル、ウェル番号を組み合わせることで、グラウンドトゥルース注釈が自動的に割り当てられました。
AIベースの分類ソリューションの結果と検証
実際の性能を評価するため、学習に含まれていない独立したデータセットを使ってモデルを評価しました。新しい384ウェルプレートに、12のタンパク質局在化クラスに属する、蛍光タグ付きのタンパク質を発現する株を調製しました。透過と蛍光でイメージングした後、scanRソフトウェアで2つのAIモデルを適用して自動解析を行いました。1つは透過で細胞を検出するための内蔵の学習済みAIモデル、もう1つは蛍光パターンによりタンパク質局在化を分類するために用意した新しいモデルです。性能結果が一目でわかるように、ソフトウェアでヒートマップを作成して、各ウェル内に特定クラスの可能性が高い細胞のパーセンテージを表示し、核小体に局在化するタンパク質を示す例として、単一細胞のギャラリーを生成できます(図4)。
図4:A) 384ウェルプレート全体のヒートマップ。核小体クラスに属するウェル内の細胞の可能性を示します。ヒートマップは列Iの核小体に局在化するタンパク質のみを示します。B) 核小体の局在化に対応する蛍光パターンを視覚的に確認するための、核小体の可能性の高いセグメント化されたオブジェクトのギャラリー(図1と比較)。C) セグメンテーションマスクから抽出されたパラメーターのセットを持つ、ウェルI3のセグメント化された細胞。この例で、核小体は最も高い値(55041)になっています。これは2番目に高いスコアのクラス(核、値425)より100倍を超えて高い値です。
さらに精密なモデル性能評価を行うため、AIによる分類予測とグラウンドトゥルース注釈を比較し、混同行列で表しました(図5)。
図5:開発したAIモデルの性能を評価するため、予測クラスと真のクラスを比較した混同行列(クラスごとに1,600~4,000の細胞)。
行列が示した全体の正確さは81.5%、精度は92.8%で、以下のように定義されます。
TN:真陰性
FP:偽陽性
FN:偽陰性
bud neckとbud tipのクラスを除いたすべてのタンパク質局在化について、モデルはロバスト性能を示しました。モデルはbud neckまたはbud tipの局在位置を予測しましたが、2つの局在化を見分けるのは困難でした。この限界は生物学的理由による可能性があります。この2つのクラスのタンパク質は、細胞周期ステージによる局在化にかなりの重なり合いが見られるからです(図1参照)。
結論:酵母タンパク質局在化のAIハイコンテントスクリーニングの利点
スマートサンプル調製と数千もの細胞へのグラウンドトゥルースの自動割り当てによって、酵母のタンパク質局在化を10種類のクラスについて正確に予測可能な、AIディープラーニングモデルを開発できたことを示しました。この方法は他の複雑な分類学習に適用でき、以下の利点が挙げられます。1) ユーザーにいかなるソフトウェアプログラミングのスキルも求められません。2) 面倒な手動による注釈がないので時間の節約になります。3) 広範なグラウンドトゥルース注釈のおかげで、イメージングのばらつきに対してロバストなAI分類ネットワークを構築でき、ハイコンテントスクリーニングなど、たくさんのサンプルに一括で適用するのに適しています。
参考文献
- Yofe, I. et al. (2016) One library to make them all: streamlining the creation of yeast libraries via a SWAp-Tag strategy. Nat. Methods 13, 371–378
- Weill, U. et al. (2018) Genome-wide SWAp-Tag yeast libraries for proteome exploration. Nat. Methods 15, 617–622
- Huh, W.-K. et al. (2003) Global analysis of protein localization in budding yeast. Nature 425, 686–91
- Meurer, M. et al. (2018) Genome-wide C-SWAT library for high-throughput yeast genome tagging. Nat. Methods 15, 598–600
- Cohen, Y. and Schuldiner, M. (2011) Advanced methods for high-throughput microscopy screening of genetically modified yeast libraries. Methods Mol. Biol. 781, 127–59
- https://www.olympus-lifescience.com/en/applications/rapid-automated-detection-and-segmentation-of-glomeruli-using-self-learning-ai-technology/
- https://www.olympus-lifescience.com/en/discovery/20-examples-of-effortless-nucleus-and-cell-segmentation-using-pretrained-deep-learning-models/
執筆者(ミュンスター大学):
Julian Schmidt、Sarah Weischer、Mike Wälte、Jens Wendt、Thomas Zobel、Maria Bohnert
執筆者(エビデント):
Manoel Veiga(Evident Technology Center Europe、アプリケーションスペシャリスト)
このアプリケーションノートに関連する製品
正確で効率的な画像解析
TRUAI
ディープラーニングを活用したTruAIテクノロジーにより、画像解析の精度が向上し、ワークフローの効率化につながります。従来のしきい値を設定する方式では、サンプルの形態特徴を抽出することが難しく、解析対象のみを正確に識別することが困難でした。例えばユーザーが膵臓サンプル上で判別した膵島の特徴を教師データとして学習させることで、膵島のみを正確に自動識別し、その数やサイズを素早く計測することができます。
ハイコンテントスクリーニングステーション
scanR
scanRハイコンテントスクリーニングステーションを使用すると、生体サンプルの画像取得とデータ解析を全自動で実施できます。細胞周期、タンパク質局在化、細胞内輸送などに対応するアッセイを個別に設計可能です。モジュール式ハードウェアは、スピニングディスク共焦点、ロボットローディング、培養、TIRF、FRAPといったさまざまなシステムに対応します。
- 高速かつ精密な画像取得と解析
- イメージサイトメトリーに基づく手法によって、詳細な結果の可視化が容易
- セルフラーニングAI、動態パラメーターの測定、高速3Dデコンボリューションなどのモジュールで機能を拡張可能