Apprendimento della Rappresentazione Molecolare in una Cellula
Learning Molecular Representation in a Cell
June 17, 2024
Autori: Gang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh
cs.AI
Abstract
Prevedere l'efficacia e la sicurezza dei farmaci in vivo richiede informazioni sulle risposte biologiche (ad esempio, morfologia cellulare ed espressione genica) alle perturbazioni indotte da piccole molecole. Tuttavia, gli attuali metodi di apprendimento delle rappresentazioni molecolari non forniscono una visione completa degli stati cellulari sotto queste perturbazioni e faticano a rimuovere il rumore, ostacolando la generalizzazione del modello. Introduciamo l'approccio Information Alignment (InfoAlign) per apprendere rappresentazioni molecolari attraverso il metodo del collo di bottiglia informativo nelle cellule. Integriamo molecole e dati di risposta cellulare come nodi in un grafo contestuale, collegandoli con archi ponderati basati su criteri chimici, biologici e computazionali. Per ogni molecola in un batch di addestramento, InfoAlign ottimizza la rappresentazione latente dell'encoder con un obiettivo di minimalità per scartare informazioni strutturali ridondanti. Un obiettivo di sufficienza decodifica la rappresentazione per allinearla con diversi spazi di caratteristiche provenienti dal vicinato della molecola nel grafo contestuale. Dimostriamo che l'obiettivo di sufficienza proposto per l'allineamento è più stringente rispetto ai metodi contrastivi basati su encoder esistenti. Empiricamente, validiamo le rappresentazioni di InfoAlign in due task downstream: previsione delle proprietà molecolari rispetto a fino a 19 metodi di riferimento su quattro dataset, oltre al matching molecola-morfologia zero-shot.
English
Predicting drug efficacy and safety in vivo requires information on
biological responses (e.g., cell morphology and gene expression) to small
molecule perturbations. However, current molecular representation learning
methods do not provide a comprehensive view of cell states under these
perturbations and struggle to remove noise, hindering model generalization. We
introduce the Information Alignment (InfoAlign) approach to learn molecular
representations through the information bottleneck method in cells. We
integrate molecules and cellular response data as nodes into a context graph,
connecting them with weighted edges based on chemical, biological, and
computational criteria. For each molecule in a training batch, InfoAlign
optimizes the encoder's latent representation with a minimality objective to
discard redundant structural information. A sufficiency objective decodes the
representation to align with different feature spaces from the molecule's
neighborhood in the context graph. We demonstrate that the proposed sufficiency
objective for alignment is tighter than existing encoder-based contrastive
methods. Empirically, we validate representations from InfoAlign in two
downstream tasks: molecular property prediction against up to 19 baseline
methods across four datasets, plus zero-shot molecule-morphology matching.