ChatPaper.aiChatPaper

細胞内における分子表現の学習

Learning Molecular Representation in a Cell

June 17, 2024
著者: Gang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh
cs.AI

要旨

生体内における薬剤の有効性と安全性を予測するためには、低分子化合物による摂動に対する生物学的応答(例えば、細胞形態や遺伝子発現)に関する情報が必要です。しかし、現在の分子表現学習手法では、これらの摂動下における細胞状態の包括的な視点を提供できず、ノイズの除去にも苦戦しており、モデルの汎化性能を妨げています。本研究では、情報ボトルネック法を用いて細胞内における分子表現を学習するための情報アライメント(InfoAlign)アプローチを提案します。分子と細胞応答データをノードとしてコンテキストグラフに統合し、化学的、生物学的、計算論的な基準に基づいて重み付きエッジで接続します。トレーニングバッチ内の各分子に対して、InfoAlignはエンコーダの潜在表現を冗長な構造情報を除去する最小化目的関数で最適化します。また、十分性目的関数を用いて、表現をコンテキストグラフ内の分子近傍から得られる異なる特徴空間と整合させます。提案する十分性目的関数によるアライメントが、既存のエンコーダベースの対照学習手法よりも厳密であることを示します。実験的には、InfoAlignから得られた表現を2つの下流タスクで検証します:4つのデータセットにわたる最大19のベースライン手法に対する分子特性予測、およびゼロショット分子-形態マッチングです。
English
Predicting drug efficacy and safety in vivo requires information on biological responses (e.g., cell morphology and gene expression) to small molecule perturbations. However, current molecular representation learning methods do not provide a comprehensive view of cell states under these perturbations and struggle to remove noise, hindering model generalization. We introduce the Information Alignment (InfoAlign) approach to learn molecular representations through the information bottleneck method in cells. We integrate molecules and cellular response data as nodes into a context graph, connecting them with weighted edges based on chemical, biological, and computational criteria. For each molecule in a training batch, InfoAlign optimizes the encoder's latent representation with a minimality objective to discard redundant structural information. A sufficiency objective decodes the representation to align with different feature spaces from the molecule's neighborhood in the context graph. We demonstrate that the proposed sufficiency objective for alignment is tighter than existing encoder-based contrastive methods. Empirically, we validate representations from InfoAlign in two downstream tasks: molecular property prediction against up to 19 baseline methods across four datasets, plus zero-shot molecule-morphology matching.

Summary

AI-Generated Summary

PDF61November 29, 2024