Graph Diffusion Transformers zijn In-Context Moleculaire Ontwerpers.
Graph Diffusion Transformers are In-Context Molecular Designers
October 9, 2025
Auteurs: Gang Liu, Jie Chen, Yihan Zhu, Michael Sun, Tengfei Luo, Nitesh V Chawla, Meng Jiang
cs.AI
Samenvatting
In-context learning stelt grote modellen in staat zich aan te passen aan nieuwe taken op basis van enkele demonstraties, maar het heeft beperkt succes getoond in moleculair ontwerp. Bestaande databases zoals ChEMBL bevatten moleculaire eigenschappen die miljoenen biologische assays omvatten, toch blijven gelabelde gegevens voor elke eigenschap schaars. Om deze beperking aan te pakken, introduceren we demonstration-conditioned diffusion models (DemoDiff), die taakcontexten definiëren met behulp van een kleine set molecuul-scorevoorbeelden in plaats van tekstbeschrijvingen. Deze demonstraties leiden een denoising Transformer om moleculen te genereren die zijn afgestemd op doel eigenschappen. Voor schaalbare pretraining ontwikkelen we een nieuwe moleculaire tokenizer met Node Pair Encoding die moleculen op motiefniveau representeert, wat 5,5 keer minder nodes vereist. We hebben een dataset samengesteld met miljoenen contexttaken uit meerdere bronnen die zowel geneesmiddelen als materialen omvatten, en hebben daarop een model met 0,7 miljard parameters gepretraind. Over 33 ontwerptaken in zes categorieën presteert DemoDiff even goed of beter dan taalmodelen die 100-1000 keer groter zijn en behaalt het een gemiddelde rang van 3,63 vergeleken met 5,25-10,20 voor domeinspecifieke benaderingen. Deze resultaten positioneren DemoDiff als een moleculair foundation model voor in-context moleculair ontwerp. Onze code is beschikbaar op https://github.com/liugangcode/DemoDiff.
English
In-context learning allows large models to adapt to new tasks from a few
demonstrations, but it has shown limited success in molecular design. Existing
databases such as ChEMBL contain molecular properties spanning millions of
biological assays, yet labeled data for each property remain scarce. To address
this limitation, we introduce demonstration-conditioned diffusion models
(DemoDiff), which define task contexts using a small set of molecule-score
examples instead of text descriptions. These demonstrations guide a denoising
Transformer to generate molecules aligned with target properties. For scalable
pretraining, we develop a new molecular tokenizer with Node Pair Encoding that
represents molecules at the motif level, requiring 5.5times fewer nodes. We
curate a dataset containing millions of context tasks from multiple sources
covering both drugs and materials, and pretrain a 0.7-billion-parameter model
on it. Across 33 design tasks in six categories, DemoDiff matches or surpasses
language models 100-1000times larger and achieves an average rank of 3.63
compared to 5.25-10.20 for domain-specific approaches. These results position
DemoDiff as a molecular foundation model for in-context molecular design. Our
code is available at https://github.com/liugangcode/DemoDiff.