ChatPaper.aiChatPaper

Graph Diffusion Transformers são Projetistas Moleculares em Contexto.

Graph Diffusion Transformers are In-Context Molecular Designers

October 9, 2025
Autores: Gang Liu, Jie Chen, Yihan Zhu, Michael Sun, Tengfei Luo, Nitesh V Chawla, Meng Jiang
cs.AI

Resumo

O aprendizado em contexto permite que modelos grandes se adaptem a novas tarefas a partir de algumas demonstrações, mas tem mostrado sucesso limitado no design molecular. Bancos de dados existentes, como o ChEMBL, contêm propriedades moleculares abrangendo milhões de ensaios biológicos, mas os dados rotulados para cada propriedade ainda são escassos. Para abordar essa limitação, introduzimos modelos de difusão condicionados por demonstrações (DemoDiff), que definem contextos de tarefas usando um pequeno conjunto de exemplos de moléculas e pontuações, em vez de descrições textuais. Essas demonstrações orientam um Transformer de remoção de ruído para gerar moléculas alinhadas com propriedades-alvo. Para um pré-treinamento escalável, desenvolvemos um novo tokenizador molecular com Codificação de Pares de Nós que representa moléculas no nível de motivos, exigindo 5,5 vezes menos nós. Curamos um conjunto de dados contendo milhões de tarefas de contexto de várias fontes, abrangendo tanto fármacos quanto materiais, e pré-treinamos um modelo de 0,7 bilhão de parâmetros nele. Em 33 tarefas de design em seis categorias, o DemoDiff iguala ou supera modelos de linguagem 100-1000 vezes maiores e alcança uma classificação média de 3,63, comparado a 5,25-10,20 para abordagens específicas de domínio. Esses resultados posicionam o DemoDiff como um modelo de fundação molecular para o design molecular em contexto. Nosso código está disponível em https://github.com/liugangcode/DemoDiff.
English
In-context learning allows large models to adapt to new tasks from a few demonstrations, but it has shown limited success in molecular design. Existing databases such as ChEMBL contain molecular properties spanning millions of biological assays, yet labeled data for each property remain scarce. To address this limitation, we introduce demonstration-conditioned diffusion models (DemoDiff), which define task contexts using a small set of molecule-score examples instead of text descriptions. These demonstrations guide a denoising Transformer to generate molecules aligned with target properties. For scalable pretraining, we develop a new molecular tokenizer with Node Pair Encoding that represents molecules at the motif level, requiring 5.5times fewer nodes. We curate a dataset containing millions of context tasks from multiple sources covering both drugs and materials, and pretrain a 0.7-billion-parameter model on it. Across 33 design tasks in six categories, DemoDiff matches or surpasses language models 100-1000times larger and achieves an average rank of 3.63 compared to 5.25-10.20 for domain-specific approaches. These results position DemoDiff as a molecular foundation model for in-context molecular design. Our code is available at https://github.com/liugangcode/DemoDiff.
PDF32October 14, 2025