Aprendizado de Representação Molecular em uma Célula
Learning Molecular Representation in a Cell
June 17, 2024
Autores: Gang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh
cs.AI
Resumo
Prever a eficácia e segurança de medicamentos in vivo requer informações sobre respostas biológicas (por exemplo, morfologia celular e expressão gênica) a perturbações de pequenas moléculas. No entanto, os métodos atuais de aprendizado de representação molecular não fornecem uma visão abrangente dos estados celulares sob essas perturbações e têm dificuldade em remover ruídos, dificultando a generalização do modelo. Introduzimos a abordagem de Alinhamento de Informações (InfoAlign) para aprender representações moleculares por meio do método do gargalo de informação em células. Integramos moléculas e dados de resposta celular como nós em um grafo de contexto, conectando-os com arestas ponderadas com base em critérios químicos, biológicos e computacionais. Para cada molécula em um lote de treinamento, o InfoAlign otimiza a representação latente do codificador com um objetivo de minimalidade para descartar informações estruturais redundantes. Um objetivo de suficiência decodifica a representação para se alinhar com diferentes espaços de características do ambiente da molécula no grafo de contexto. Demonstramos que o objetivo de suficiência proposto para o alinhamento é mais rigoroso do que os métodos contrastivos baseados em codificadores existentes. Empiricamente, validamos as representações do InfoAlign em duas tarefas subsequentes: previsão de propriedades moleculares em comparação com até 19 métodos de referência em quatro conjuntos de dados, além de correspondência de molécula-morfologia sem treinamento prévio.
English
Predicting drug efficacy and safety in vivo requires information on
biological responses (e.g., cell morphology and gene expression) to small
molecule perturbations. However, current molecular representation learning
methods do not provide a comprehensive view of cell states under these
perturbations and struggle to remove noise, hindering model generalization. We
introduce the Information Alignment (InfoAlign) approach to learn molecular
representations through the information bottleneck method in cells. We
integrate molecules and cellular response data as nodes into a context graph,
connecting them with weighted edges based on chemical, biological, and
computational criteria. For each molecule in a training batch, InfoAlign
optimizes the encoder's latent representation with a minimality objective to
discard redundant structural information. A sufficiency objective decodes the
representation to align with different feature spaces from the molecule's
neighborhood in the context graph. We demonstrate that the proposed sufficiency
objective for alignment is tighter than existing encoder-based contrastive
methods. Empirically, we validate representations from InfoAlign in two
downstream tasks: molecular property prediction against up to 19 baseline
methods across four datasets, plus zero-shot molecule-morphology matching.