ChatPaper.aiChatPaper

I Graph Diffusion Transformer sono progettisti molecolari in-context.

Graph Diffusion Transformers are In-Context Molecular Designers

October 9, 2025
Autori: Gang Liu, Jie Chen, Yihan Zhu, Michael Sun, Tengfei Luo, Nitesh V Chawla, Meng Jiang
cs.AI

Abstract

L'apprendimento in contesto consente ai modelli di grandi dimensioni di adattarsi a nuovi compiti partendo da poche dimostrazioni, ma ha mostrato un successo limitato nel design molecolare. Banche dati esistenti come ChEMBL contengono proprietà molecolari che coprono milioni di saggi biologici, tuttavia i dati etichettati per ciascuna proprietà rimangono scarsi. Per affrontare questa limitazione, introduciamo i modelli di diffusione condizionati da dimostrazioni (DemoDiff), che definiscono i contesti dei compiti utilizzando un piccolo insieme di esempi molecola-punteggio anziché descrizioni testuali. Queste dimostrazioni guidano un Transformer di denoising a generare molecole allineate con le proprietà target. Per un preaddestramento scalabile, sviluppiamo un nuovo tokenizzatore molecolare con Node Pair Encoding che rappresenta le molecole a livello di motivo, richiedendo 5,5 volte meno nodi. Curiamo un dataset contenente milioni di compiti contestuali provenienti da più fonti che coprono sia farmaci che materiali, e preaddestriamo su di esso un modello da 0,7 miliardi di parametri. Su 33 compiti di design in sei categorie, DemoDiff eguaglia o supera modelli linguistici 100-1000 volte più grandi e raggiunge una posizione media di 3,63 rispetto a 5,25-10,20 per approcci specifici del dominio. Questi risultati posizionano DemoDiff come un modello fondazionale molecolare per il design molecolare in contesto. Il nostro codice è disponibile all'indirizzo https://github.com/liugangcode/DemoDiff.
English
In-context learning allows large models to adapt to new tasks from a few demonstrations, but it has shown limited success in molecular design. Existing databases such as ChEMBL contain molecular properties spanning millions of biological assays, yet labeled data for each property remain scarce. To address this limitation, we introduce demonstration-conditioned diffusion models (DemoDiff), which define task contexts using a small set of molecule-score examples instead of text descriptions. These demonstrations guide a denoising Transformer to generate molecules aligned with target properties. For scalable pretraining, we develop a new molecular tokenizer with Node Pair Encoding that represents molecules at the motif level, requiring 5.5times fewer nodes. We curate a dataset containing millions of context tasks from multiple sources covering both drugs and materials, and pretrain a 0.7-billion-parameter model on it. Across 33 design tasks in six categories, DemoDiff matches or surpasses language models 100-1000times larger and achieves an average rank of 3.63 compared to 5.25-10.20 for domain-specific approaches. These results position DemoDiff as a molecular foundation model for in-context molecular design. Our code is available at https://github.com/liugangcode/DemoDiff.
PDF32October 14, 2025