Обучение молекулярного представления в клетке
Learning Molecular Representation in a Cell
June 17, 2024
Авторы: Gang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh
cs.AI
Аннотация
Для прогнозирования эффективности и безопасности лекарств в живом организме необходима информация о биологических реакциях (например, морфологии клеток и экспрессии генов) на воздействие малых молекул. Однако текущие методы обучения представлений молекул не предоставляют всестороннего представления о состояниях клеток под такими воздействиями и испытывают затруднения с удалением шума, что затрудняет обобщение модели. Мы представляем подход информационного выравнивания (InfoAlign) для обучения представлений молекул с использованием метода информационного узкого места в клетках. Мы интегрируем молекулы и данные о клеточных реакциях как узлы в контекстный граф, соединяя их с взвешенными ребрами на основе химических, биологических и вычислительных критериев. Для каждой молекулы в обучающей выборке InfoAlign оптимизирует латентное представление кодировщика с целью минимизации избыточной структурной информации. Объектом достаточности декодируется представление для выравнивания с различными пространствами признаков из окрестности молекулы в контекстном графе. Мы демонстрируем, что предложенный объект достаточности для выравнивания более жесткий, чем существующие методы контрастного обучения на основе кодировщика. Эмпирически мы проверяем представления от InfoAlign в двух последующих задачах: прогнозирование свойств молекул по сравнению с до 19 базовыми методами на четырех наборах данных, а также сопоставление молекул-морфология без обучения на примерах.
English
Predicting drug efficacy and safety in vivo requires information on
biological responses (e.g., cell morphology and gene expression) to small
molecule perturbations. However, current molecular representation learning
methods do not provide a comprehensive view of cell states under these
perturbations and struggle to remove noise, hindering model generalization. We
introduce the Information Alignment (InfoAlign) approach to learn molecular
representations through the information bottleneck method in cells. We
integrate molecules and cellular response data as nodes into a context graph,
connecting them with weighted edges based on chemical, biological, and
computational criteria. For each molecule in a training batch, InfoAlign
optimizes the encoder's latent representation with a minimality objective to
discard redundant structural information. A sufficiency objective decodes the
representation to align with different feature spaces from the molecule's
neighborhood in the context graph. We demonstrate that the proposed sufficiency
objective for alignment is tighter than existing encoder-based contrastive
methods. Empirically, we validate representations from InfoAlign in two
downstream tasks: molecular property prediction against up to 19 baseline
methods across four datasets, plus zero-shot molecule-morphology matching.Summary
AI-Generated Summary