研究概要

 近年、ゲノム配列情報やタンパク質立体構造、遺伝子発現情報さらに医療画像情報など膨大な生命情報の電子 データが蓄積され、革新的な研究が望まれます。本研究室ではバイオインフォマティクス手法により、膨大な生命情報を扱うことで生命の神秘を解き明かし、展開される生命現象のドラマの筋書きを解明しょうとしています。

本研究室では、特に、創薬ターゲットの膜タンパク質を対象として、その機能や構造を推定し、また細胞内へのシグナル伝達パスウェイの理解を目指しています。膜タンパク質は細胞表面のインターフェースとして創薬の最重要な標的であるため、ゲノムワイドに立体構造や機能を解明することが強く望まれていますが、実験手法のみでは困難です。これにはバイオインフォマティクスが有効で、膨大な情報から生命現象を物理・数理的にモデル化して立体構造や機能を予測できる可能性があります。この観点の基、以下の研究を行ってきました。

 

 ★電子顕微鏡画像から物体の種類を推定する。

 近年、電顕トモグラフィーにより細胞内のタンパク質の三次元体積像を得、立体構造座標を当てはめることで細胞内での網羅的なタンパク質配置図を作製するという新しい指針(ビジュアルプロテオミクス)が提示されています。私たちは、電子顕微鏡画像に映る物体(細胞、タンパク質など)の 種類を、画像認識の深層学習手法を使って照合・推定 する方法を研究しています(下図は、細胞膜上に写る膜タンパクに立体構造情報を照合したイメージ図)。

  最近では、バイオインフォマティクス技術とビジュアルプロテオミクス技術の融合のモデルケースとして、電子顕微鏡で撮影した骨格筋由来の筋小胞体の画像から、表面の膜タンパク質集団のダイナミックな動きと筋小胞体形態変化の相関を、様々なシグナル物質の下で網羅的に解析し、タンパク質集団ならではの機能を発揮する筋弛緩・収縮制御メカニズムの解明を目指しています。     これまで開発してきた独自の照合手法をさらに高精度化させたうえ、これらの基盤技術を細胞内環境での様々な生理的条件(特にATP濃度、Ca2+濃度)で撮影した筋小胞体や膜タンパク質(主にCa2+-ATPase)集団画像に応用しています。実際の電顕画像へ立体構造座標を照合して埋め込んだ細胞膜の超分子モデルを作成し、動態を解析することで、筋肉収縮・弛緩の分子論的メカニズムを解明することを目指しています。

 

★膜タンパク質の立体構造予測 

 立体構造が希少な膜タンパク質では、アミノ酸配列から立体構造を予測することが望まれます。典型的な膜タンパク質は、膜にほぼ垂直な膜貫通αヘリックスが数本,束になるため、構造予測では、アミノ配列からの①膜タンパク質判別、②膜貫通へリックス領域の予測および③それらの空間配置予測という流れを採りました。③に関してはヘリックスを、極性表面をまとった連続体と近似し、極性表面同士の相互作用スコアを最適化しつつ二次元電子密度図に配置する方法を提案し、構造既知の膜タンパク質(バクテリオロドプシン等)の構造を再現できました。これは現在でも膜タンパク質構造予測の先導的研究として引用されています。

 タンパク質同士では、配列の類似性が無くても立体構造が類似する場合があるため、特定の配列が、どの立体構造に近いかを予測すること(構造認識)も重要です。αへリックス型膜タンパク質では、配列から計算した膜貫通へリックス上の極性表面の類似度により構造認識ができる事を示しました。βシート型膜タンパク質では、アミノ酸出現頻度や残基間相互作用情報等を用いた構造認識法を提案しました。

 

★創薬の重要ターゲット(GPCR)の機能発現メカニズムを理解し、予測する

 Gタンパク質共役型受容体(GPCR)は、リガンドが結合すると細胞内シグナル伝達の起点となり、細胞内のタンパク質を介して情報を次々と伝達します。生体内の極めて重要な機能を果たします。シグナル伝達経路に異常をきたすと糖尿病やがん、喘息などの様々な重篤な疾患の原因となります。市場の薬の約30%がこの制御を狙うため,創薬の最重要標的です。このGPCR遺伝子に特化し、ゲノム配列から高精度に同定して、構造・機能情報を加える計算システムを構築しました。この成果を用いて現在68生物種のゲノムから網羅的に同定したGPCRをデータベース(DB)化して公開しています(SEVENS:http://sevens.cbrc.jp)。実験で確認されずともゲノム上に確かに存在するGPCRを網羅するのが特徴で、創薬関連の重要DBとして国際誌に引用され、国内外から~千件/月の訪問数があります。現在このDB中の配列を用いてゲノム比較を行い、GPCRが多様化してきた機構を研究しています。哺乳類では生物種ごとに特有な受容体(嗅覚、味覚、フェロモン受容体など)が頻繁に遺伝子重複を繰り返して、急増したと示唆しました。 

 この他、SEVENSを活用し、様々な機能解析の共同研究に発展し、主に有用遺伝子やペプチドの網羅的発見や機能解析で成果を挙げてきました。中でも、炎症時に免疫細胞の集積を制御する新規遺伝子の同定は重要な成果です。最近は日中共同蚕ゲノム研究に参加して蚕特有のGPCRを示唆し、実験研究者と共同で蚕をクワの葉に引き寄せる匂い分子とその受容体を初めて同定し、生物分野で世界的成果となりました。

 GPCRのシグナル伝達経路に異常をきたすと糖尿病やがん、喘息などの様々な重篤な疾患の原因となります。これら生体内の現象や疾患現象などの理解のためにはGPCRとリガンド結合から下流の生命現象までの一連のシグナル伝達経路を可視化し、網羅的に理解することが重要です。しかし現在、GPCRのシグナル伝達情報は、学術論文中あるいはKEGG, REACTOME, WikiPathwaysなどの公共データベースに断片的に散在しているうえ、多くの場合、シグナル経路が下流まで途切れず繋がる情報は限られています。そこで本研究では、最終的に疾患や生命現象に繋がるGPCRシグナル伝達経路の情報を学術論文から収集し、これを基にリガンド結合から下流の生命現象まで経路を繋げて出力するプログラムを構築しています。まず、GPCRシグナル伝達情報に着目し、文献データベース(PUBMED)から複数の学術論文を抽出し、文章を二項関係(1:1の主語(タンパク質)と目的語(タンパク質)が述語(分子作用)で結ばれた関係性)に置き換えます。二項関係を利用すれば、個別に集めた情報の目的語と主語を逐次的に重ねてシグナルの前後関係を繋ぎ合わすことができます。最終的には、GPCRの配列を入力すると、下流の現象まで探索できるシミュレーション基盤を構築することを目指しています。

(出力したシグナル伝達経路の例)

GPCRの機能発現メカニズムを理解するにはGPCRがリガンド分子と結合して構造変化し、細胞内のGタンパク質を活性化させる一連の過程をモデル化する必要があります。GPCR配列解析からGタンパク質共役選択性と相関性が高い部位を同定した結果、共役に効果的な領域 は、細胞質内側のみならず、GPCR構造全体に散在するというモデルが得られました。この情報を基に、機械学習法を利用し、リガンドの分子量とGPCR配列を入力すると共役Gタンパク質を~85%の精度で予測するプログラム(GRIFFIN: http://griffin.westus2.cloudapp.azure.com/)を開発しました。現在、Gタンパク質予測の代表的ツールとして引用され、海外のグループと競っています。 

 近年、得られたGPCRの新構造を利用し、機能に関連する部位間の連携も考慮したモデル化も行っています。SEVENS中のGPCR配列全体では、6番目のヘリックスに存在するTrpが強く保存され、これがリガンド結合後の情報伝達の起点となると示唆しました)。この位置から細胞質側に向かう情報伝達経路を、結合Gタンパク質が異なる2種類のロドプシン構造の分子動力学計算により解析し、内部の水素結合ネットワークの流れの差異がGタンパク質結合選択性に関連すると示唆しました。

 最近では、上記の情報を基にして、深層学習を活用したGタンパク質結合選択性予測予測にも挑戦しています。

 

★生命現象システムのモデル化(匂い認識の働きを予測し、制御する。)

  嗅覚システムは、数十万種を越す匂い分子を媒介として特に記憶、感情などを誘引するため、システムを体系的に理解するために、モデル化してその挙動を予測することが重要です。

 匂い認識は、数百種の嗅覚受容体がそれぞれ数種の匂い分子に応答する事から始まり、それらからの活性信号が鼻の嗅上皮や、脳の一次中枢組織(臭球)の上で二次元的パターンとして統合されます(匂い地図)。そこで、様々な匂い分子のブレンドに対する全嗅覚受容体反応をシミュレーションするプログラムを作成しています。これは、実験データ(匂い分子への嗅覚受容体の活性強度)と受容体の構造特徴量の相関性を用いています。

 

★比較ゲノム解析:タンパク質が多様な機能を獲得してきた起源や変遷を解析する。

タンパク質の配列情報や立体構造情報を用いて、結合リガンドの特性、細胞内オルガネラなどへの局在位置、糖鎖などの化学修飾部位、エクソン―イントロン構造、構造形成速度など様々な特性・属性などの相関性を、生物種間のゲノム・全タンパク質レベルで追跡、比較して行きます。