ChatPaper.aiChatPaper

Los Transformadores de Difusión de Grafos son Diseñadores Moleculares en Contexto.

Graph Diffusion Transformers are In-Context Molecular Designers

October 9, 2025
Autores: Gang Liu, Jie Chen, Yihan Zhu, Michael Sun, Tengfei Luo, Nitesh V Chawla, Meng Jiang
cs.AI

Resumen

El aprendizaje en contexto permite que los modelos grandes se adapten a nuevas tareas a partir de unas pocas demostraciones, pero ha mostrado un éxito limitado en el diseño molecular. Bases de datos existentes como ChEMBL contienen propiedades moleculares que abarcan millones de ensayos biológicos, sin embargo, los datos etiquetados para cada propiedad siguen siendo escasos. Para abordar esta limitación, presentamos los modelos de difusión condicionados por demostraciones (DemoDiff), que definen contextos de tareas utilizando un pequeño conjunto de ejemplos de moléculas y puntuaciones en lugar de descripciones textuales. Estas demostraciones guían a un Transformer de eliminación de ruido para generar moléculas alineadas con propiedades objetivo. Para un preentrenamiento escalable, desarrollamos un nuevo tokenizador molecular con Codificación de Pares de Nodos que representa moléculas a nivel de motivos, requiriendo 5.5 veces menos nodos. Curiosamente, un conjunto de datos que contiene millones de tareas de contexto de múltiples fuentes que cubren tanto fármacos como materiales, y preentrenamos un modelo de 0.7 mil millones de parámetros en él. En 33 tareas de diseño en seis categorías, DemoDiff iguala o supera a modelos de lenguaje 100-1000 veces más grandes y logra un rango promedio de 3.63 en comparación con 5.25-10.20 para enfoques específicos del dominio. Estos resultados posicionan a DemoDiff como un modelo fundacional molecular para el diseño molecular en contexto. Nuestro código está disponible en https://github.com/liugangcode/DemoDiff.
English
In-context learning allows large models to adapt to new tasks from a few demonstrations, but it has shown limited success in molecular design. Existing databases such as ChEMBL contain molecular properties spanning millions of biological assays, yet labeled data for each property remain scarce. To address this limitation, we introduce demonstration-conditioned diffusion models (DemoDiff), which define task contexts using a small set of molecule-score examples instead of text descriptions. These demonstrations guide a denoising Transformer to generate molecules aligned with target properties. For scalable pretraining, we develop a new molecular tokenizer with Node Pair Encoding that represents molecules at the motif level, requiring 5.5times fewer nodes. We curate a dataset containing millions of context tasks from multiple sources covering both drugs and materials, and pretrain a 0.7-billion-parameter model on it. Across 33 design tasks in six categories, DemoDiff matches or surpasses language models 100-1000times larger and achieves an average rank of 3.63 compared to 5.25-10.20 for domain-specific approaches. These results position DemoDiff as a molecular foundation model for in-context molecular design. Our code is available at https://github.com/liugangcode/DemoDiff.
PDF32October 14, 2025