ChatPaper.aiChatPaper

Les Transformeurs de Diffusion de Graphes sont des Concepteurs Moléculaires en Contexte.

Graph Diffusion Transformers are In-Context Molecular Designers

October 9, 2025
papers.authors: Gang Liu, Jie Chen, Yihan Zhu, Michael Sun, Tengfei Luo, Nitesh V Chawla, Meng Jiang
cs.AI

papers.abstract

L'apprentissage en contexte permet aux grands modèles de s'adapter à de nouvelles tâches à partir de quelques démonstrations, mais il a montré un succès limité dans la conception moléculaire. Les bases de données existantes telles que ChEMBL contiennent des propriétés moléculaires couvrant des millions de tests biologiques, mais les données étiquetées pour chaque propriété restent rares. Pour pallier cette limitation, nous introduisons les modèles de diffusion conditionnés par démonstration (DemoDiff), qui définissent les contextes de tâches à l'aide d'un petit ensemble d'exemples molécules-scores plutôt que de descriptions textuelles. Ces démonstrations guident un Transformer de débruitage pour générer des molécules alignées avec les propriétés cibles. Pour un pré-entraînement scalable, nous développons un nouveau tokeniseur moléculaire avec Node Pair Encoding qui représente les molécules au niveau des motifs, nécessitant 5,5 fois moins de nœuds. Nous constituons un ensemble de données contenant des millions de tâches contextuelles provenant de multiples sources couvrant à la fois les médicaments et les matériaux, et pré-entraînons un modèle de 0,7 milliard de paramètres sur celui-ci. Sur 33 tâches de conception dans six catégories, DemoDiff égale ou dépasse les modèles de langage 100 à 1000 fois plus grands et atteint un rang moyen de 3,63 contre 5,25-10,20 pour les approches spécifiques au domaine. Ces résultats positionnent DemoDiff comme un modèle fondationnel moléculaire pour la conception moléculaire en contexte. Notre code est disponible à l'adresse https://github.com/liugangcode/DemoDiff.
English
In-context learning allows large models to adapt to new tasks from a few demonstrations, but it has shown limited success in molecular design. Existing databases such as ChEMBL contain molecular properties spanning millions of biological assays, yet labeled data for each property remain scarce. To address this limitation, we introduce demonstration-conditioned diffusion models (DemoDiff), which define task contexts using a small set of molecule-score examples instead of text descriptions. These demonstrations guide a denoising Transformer to generate molecules aligned with target properties. For scalable pretraining, we develop a new molecular tokenizer with Node Pair Encoding that represents molecules at the motif level, requiring 5.5times fewer nodes. We curate a dataset containing millions of context tasks from multiple sources covering both drugs and materials, and pretrain a 0.7-billion-parameter model on it. Across 33 design tasks in six categories, DemoDiff matches or surpasses language models 100-1000times larger and achieves an average rank of 3.63 compared to 5.25-10.20 for domain-specific approaches. These results position DemoDiff as a molecular foundation model for in-context molecular design. Our code is available at https://github.com/liugangcode/DemoDiff.
PDF32October 14, 2025