ChatPaper.aiChatPaper

Moleculaire Representatie Leren in een Cel

Learning Molecular Representation in a Cell

June 17, 2024
Auteurs: Gang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh
cs.AI

Samenvatting

Het voorspellen van de werkzaamheid en veiligheid van geneesmiddelen in vivo vereist informatie over biologische reacties (bijvoorbeeld celmorfologie en genexpressie) op verstoringen door kleine moleculen. Huidige methoden voor het leren van moleculaire representaties bieden echter geen uitgebreid beeld van celtoestanden onder deze verstoringen en hebben moeite om ruis te verwijderen, wat de generalisatie van modellen belemmert. Wij introduceren de Information Alignment (InfoAlign)-benadering om moleculaire representaties te leren via de informatieknelpuntenmethode in cellen. We integreren moleculen en gegevens over cellulaire reacties als knooppunten in een contextgrafiek, waarbij we ze verbinden met gewogen randen op basis van chemische, biologische en computationele criteria. Voor elk molecuul in een trainingsbatch optimaliseert InfoAlign de latente representatie van de encoder met een minimaliteitsdoel om overbodige structurele informatie te verwijderen. Een toereikendheidsdoel decodeert de representatie om deze af te stemmen op verschillende kenmerkruimtes uit de omgeving van het molecuul in de contextgrafiek. We tonen aan dat het voorgestelde toereikendheidsdoel voor afstemming strikter is dan bestaande encoder-gebaseerde contrastieve methoden. Empirisch valideren we representaties van InfoAlign in twee downstream taken: het voorspellen van moleculaire eigenschappen tegen maximaal 19 baseline-methoden over vier datasets, plus zero-shot molecuul-morfologie matching.
English
Predicting drug efficacy and safety in vivo requires information on biological responses (e.g., cell morphology and gene expression) to small molecule perturbations. However, current molecular representation learning methods do not provide a comprehensive view of cell states under these perturbations and struggle to remove noise, hindering model generalization. We introduce the Information Alignment (InfoAlign) approach to learn molecular representations through the information bottleneck method in cells. We integrate molecules and cellular response data as nodes into a context graph, connecting them with weighted edges based on chemical, biological, and computational criteria. For each molecule in a training batch, InfoAlign optimizes the encoder's latent representation with a minimality objective to discard redundant structural information. A sufficiency objective decodes the representation to align with different feature spaces from the molecule's neighborhood in the context graph. We demonstrate that the proposed sufficiency objective for alignment is tighter than existing encoder-based contrastive methods. Empirically, we validate representations from InfoAlign in two downstream tasks: molecular property prediction against up to 19 baseline methods across four datasets, plus zero-shot molecule-morphology matching.
PDF61November 29, 2024