Aprendizaje de Representación Molecular en una Célula
Learning Molecular Representation in a Cell
June 17, 2024
Autores: Gang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh
cs.AI
Resumen
Predecir la eficacia y seguridad de los fármacos in vivo requiere información sobre las respuestas biológicas (por ejemplo, morfología celular y expresión génica) a perturbaciones de pequeñas moléculas. Sin embargo, los métodos actuales de aprendizaje de representaciones moleculares no proporcionan una visión integral de los estados celulares bajo estas perturbaciones y tienen dificultades para eliminar el ruido, lo que obstaculiza la generalización del modelo. Introducimos el enfoque de Alineación de Información (InfoAlign) para aprender representaciones moleculares a través del método del cuello de botella de información en células. Integramos moléculas y datos de respuesta celular como nodos en un grafo de contexto, conectándolos con aristas ponderadas basadas en criterios químicos, biológicos y computacionales. Para cada molécula en un lote de entrenamiento, InfoAlign optimiza la representación latente del codificador con un objetivo de minimalidad para descartar información estructural redundante. Un objetivo de suficiencia decodifica la representación para alinearla con diferentes espacios de características del vecindario de la molécula en el grafo de contexto. Demostramos que el objetivo de suficiencia propuesto para la alineación es más estricto que los métodos contrastivos basados en codificadores existentes. Empíricamente, validamos las representaciones de InfoAlign en dos tareas posteriores: predicción de propiedades moleculares frente a hasta 19 métodos de referencia en cuatro conjuntos de datos, además de la coincidencia molécula-morfología en modo zero-shot.
English
Predicting drug efficacy and safety in vivo requires information on
biological responses (e.g., cell morphology and gene expression) to small
molecule perturbations. However, current molecular representation learning
methods do not provide a comprehensive view of cell states under these
perturbations and struggle to remove noise, hindering model generalization. We
introduce the Information Alignment (InfoAlign) approach to learn molecular
representations through the information bottleneck method in cells. We
integrate molecules and cellular response data as nodes into a context graph,
connecting them with weighted edges based on chemical, biological, and
computational criteria. For each molecule in a training batch, InfoAlign
optimizes the encoder's latent representation with a minimality objective to
discard redundant structural information. A sufficiency objective decodes the
representation to align with different feature spaces from the molecule's
neighborhood in the context graph. We demonstrate that the proposed sufficiency
objective for alignment is tighter than existing encoder-based contrastive
methods. Empirically, we validate representations from InfoAlign in two
downstream tasks: molecular property prediction against up to 19 baseline
methods across four datasets, plus zero-shot molecule-morphology matching.