ChatPaper.aiChatPaper

세포 내 분자 표현 학습

Learning Molecular Representation in a Cell

June 17, 2024
저자: Gang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter, Meng Jiang, Shantanu Singh
cs.AI

초록

체내에서의 약물 효능과 안전성을 예측하기 위해서는 소분자 교란에 대한 생물학적 반응(예: 세포 형태 및 유전자 발현) 정보가 필요합니다. 그러나 현재의 분자 표현 학습 방법들은 이러한 교란 하에서의 세포 상태를 포괄적으로 보여주지 못하며 노이즈를 제거하는 데 어려움을 겪어 모델의 일반화를 방해합니다. 우리는 정보 정렬(InfoAlign) 접근법을 소개하여, 세포 내에서 정보 병목 방법을 통해 분자 표현을 학습합니다. 우리는 분자와 세포 반응 데이터를 노드로 통합하여 컨텍스트 그래프에 포함시키고, 화학적, 생물학적, 계산적 기준에 기반한 가중치가 부여된 엣지로 연결합니다. 학습 배치의 각 분자에 대해, InfoAlign은 중복된 구조 정보를 제거하기 위해 최소성 목표를 가지고 인코더의 잠재 표현을 최적화합니다. 충분성 목표는 컨텍스트 그래프에서 분자의 이웃으로부터 다양한 특징 공간과 정렬되도록 표현을 디코딩합니다. 우리는 제안된 충분성 목표가 기존의 인코더 기반 대조 방법보다 더 엄격하다는 것을 보여줍니다. 실증적으로, 우리는 InfoAlign에서 얻은 표현을 두 가지 하위 작업에서 검증합니다: 네 가지 데이터셋에 걸쳐 최대 19개의 베이스라인 방법과 비교한 분자 속성 예측, 그리고 제로샷 분자-형태학 매칭입니다.
English
Predicting drug efficacy and safety in vivo requires information on biological responses (e.g., cell morphology and gene expression) to small molecule perturbations. However, current molecular representation learning methods do not provide a comprehensive view of cell states under these perturbations and struggle to remove noise, hindering model generalization. We introduce the Information Alignment (InfoAlign) approach to learn molecular representations through the information bottleneck method in cells. We integrate molecules and cellular response data as nodes into a context graph, connecting them with weighted edges based on chemical, biological, and computational criteria. For each molecule in a training batch, InfoAlign optimizes the encoder's latent representation with a minimality objective to discard redundant structural information. A sufficiency objective decodes the representation to align with different feature spaces from the molecule's neighborhood in the context graph. We demonstrate that the proposed sufficiency objective for alignment is tighter than existing encoder-based contrastive methods. Empirically, we validate representations from InfoAlign in two downstream tasks: molecular property prediction against up to 19 baseline methods across four datasets, plus zero-shot molecule-morphology matching.

Summary

AI-Generated Summary

PDF61November 29, 2024