Apprentissage de la représentation moléculaire dans une cellule
Learning Molecular Representation in a Cell
June 17, 2024
Auteurs: Gang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh
cs.AI
Résumé
Prédire l'efficacité et la sécurité des médicaments in vivo nécessite des informations sur les réponses biologiques (par exemple, la morphologie cellulaire et l'expression génique) aux perturbations par petites molécules. Cependant, les méthodes actuelles d'apprentissage de représentation moléculaire ne fournissent pas une vue complète des états cellulaires sous ces perturbations et peinent à éliminer le bruit, ce qui entrave la généralisation des modèles. Nous introduisons l'approche d'Alignement d'Information (InfoAlign) pour apprendre les représentations moléculaires à travers la méthode du goulot d'information dans les cellules. Nous intégrons les molécules et les données de réponse cellulaire en tant que nœuds dans un graphe de contexte, les connectant avec des arêtes pondérées basées sur des critères chimiques, biologiques et informatiques. Pour chaque molécule dans un lot d'entraînement, InfoAlign optimise la représentation latente de l'encodeur avec un objectif de minimalité pour éliminer les informations structurelles redondantes. Un objectif de suffisance décode la représentation pour l'aligner avec différents espaces de caractéristiques provenant du voisinage de la molécule dans le graphe de contexte. Nous démontrons que l'objectif de suffisance proposé pour l'alignement est plus strict que les méthodes contrastives existantes basées sur l'encodeur. Empiriquement, nous validons les représentations issues d'InfoAlign dans deux tâches en aval : la prédiction des propriétés moléculaires contre jusqu'à 19 méthodes de référence sur quatre ensembles de données, ainsi que l'appariement zéro-shot molécule-morphologie.
English
Predicting drug efficacy and safety in vivo requires information on
biological responses (e.g., cell morphology and gene expression) to small
molecule perturbations. However, current molecular representation learning
methods do not provide a comprehensive view of cell states under these
perturbations and struggle to remove noise, hindering model generalization. We
introduce the Information Alignment (InfoAlign) approach to learn molecular
representations through the information bottleneck method in cells. We
integrate molecules and cellular response data as nodes into a context graph,
connecting them with weighted edges based on chemical, biological, and
computational criteria. For each molecule in a training batch, InfoAlign
optimizes the encoder's latent representation with a minimality objective to
discard redundant structural information. A sufficiency objective decodes the
representation to align with different feature spaces from the molecule's
neighborhood in the context graph. We demonstrate that the proposed sufficiency
objective for alignment is tighter than existing encoder-based contrastive
methods. Empirically, we validate representations from InfoAlign in two
downstream tasks: molecular property prediction against up to 19 baseline
methods across four datasets, plus zero-shot molecule-morphology matching.Summary
AI-Generated Summary