Lernen der molekularen Darstellung in einer Zelle
Learning Molecular Representation in a Cell
June 17, 2024
Autoren: Gang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh
cs.AI
Zusammenfassung
Die Vorhersage der Wirksamkeit und Sicherheit von Medikamenten in vivo erfordert Informationen über biologische Reaktionen (z. B. Zellmorphologie und Genexpression) auf Störungen durch kleine Moleküle. Aktuelle Methoden des molekularen Repräsentationslernens bieten jedoch keinen umfassenden Überblick über Zellzustände unter diesen Störungen und haben Schwierigkeiten, Rauschen zu entfernen, was die Generalisierung des Modells beeinträchtigt. Wir stellen den Ansatz der Informationsausrichtung (InfoAlign) vor, um molekulare Repräsentationen durch die Informationsflaschenhalsmethode in Zellen zu erlernen. Wir integrieren Moleküle und zelluläre Reaktionsdaten als Knoten in einen Kontextgraphen, der sie mit gewichteten Kanten basierend auf chemischen, biologischen und rechnerischen Kriterien verbindet. Für jedes Molekül in einem Schulungsbatch optimiert InfoAlign die latente Repräsentation des Encoders mit einem Minimalitätsziel, um redundante strukturelle Informationen zu verwerfen. Ein Suffizienzziel dekodiert die Repräsentation, um sie mit verschiedenen Merkmalsräumen aus der Nachbarschaft des Moleküls im Kontextgraphen abzustimmen. Wir zeigen, dass das vorgeschlagene Suffizienzziel für die Ausrichtung enger ist als bestehende kontrastive Methoden auf Basis von Encodern. Empirisch validieren wir Repräsentationen von InfoAlign in zwei nachgelagerten Aufgaben: Vorhersage molekularer Eigenschaften im Vergleich zu bis zu 19 Basislinienmethoden über vier Datensätze hinweg sowie Null-Shot-Molekül-Morphologie-Abgleich.
English
Predicting drug efficacy and safety in vivo requires information on
biological responses (e.g., cell morphology and gene expression) to small
molecule perturbations. However, current molecular representation learning
methods do not provide a comprehensive view of cell states under these
perturbations and struggle to remove noise, hindering model generalization. We
introduce the Information Alignment (InfoAlign) approach to learn molecular
representations through the information bottleneck method in cells. We
integrate molecules and cellular response data as nodes into a context graph,
connecting them with weighted edges based on chemical, biological, and
computational criteria. For each molecule in a training batch, InfoAlign
optimizes the encoder's latent representation with a minimality objective to
discard redundant structural information. A sufficiency objective decodes the
representation to align with different feature spaces from the molecule's
neighborhood in the context graph. We demonstrate that the proposed sufficiency
objective for alignment is tighter than existing encoder-based contrastive
methods. Empirically, we validate representations from InfoAlign in two
downstream tasks: molecular property prediction against up to 19 baseline
methods across four datasets, plus zero-shot molecule-morphology matching.Summary
AI-Generated Summary