ChatPaper.aiChatPaper

Graph Diffusion Transformer sind In-Context-Moleküldesigner.

Graph Diffusion Transformers are In-Context Molecular Designers

October 9, 2025
papers.authors: Gang Liu, Jie Chen, Yihan Zhu, Michael Sun, Tengfei Luo, Nitesh V Chawla, Meng Jiang
cs.AI

papers.abstract

In-Context-Learning ermöglicht es großen Modellen, sich an neue Aufgaben anhand weniger Demonstrationen anzupassen, hat jedoch im Bereich des Moleküldesigns bisher nur begrenzten Erfolg gezeigt. Bestehende Datenbanken wie ChEMBL enthalten molekulare Eigenschaften, die Millionen von biologischen Assays umfassen, doch bleiben annotierte Daten für jede Eigenschaft knapp. Um diese Einschränkung zu überwinden, führen wir demonstrationsbedingte Diffusionsmodelle (DemoDiff) ein, die Aufgabenkontexte mithilfe einer kleinen Menge von Molekül-Score-Beispielen statt textueller Beschreibungen definieren. Diese Demonstrationen leiten einen Denoising-Transformer an, um Moleküle zu generieren, die mit den Ziel-Eigenschaften übereinstimmen. Für skalierbares Pretraining entwickeln wir einen neuen molekularen Tokenizer mit Node-Pair-Encoding, der Moleküle auf Motivebene darstellt und 5,5-mal weniger Knoten benötigt. Wir erstellen einen Datensatz, der Millionen von Kontextaufgaben aus verschiedenen Quellen abdeckt, sowohl für Arzneimittel als auch Materialien, und trainieren ein Modell mit 0,7 Milliarden Parametern darauf. Über 33 Designaufgaben in sechs Kategorien hinweg erreicht DemoDiff vergleichbare oder bessere Ergebnisse als Sprachmodelle, die 100-1000-mal größer sind, und erzielt einen durchschnittlichen Rang von 3,63 im Vergleich zu 5,25-10,20 für domänenspezifische Ansätze. Diese Ergebnisse positionieren DemoDiff als ein molekulares Grundlagenmodell für In-Context-Moleküldesign. Unser Code ist verfügbar unter https://github.com/liugangcode/DemoDiff.
English
In-context learning allows large models to adapt to new tasks from a few demonstrations, but it has shown limited success in molecular design. Existing databases such as ChEMBL contain molecular properties spanning millions of biological assays, yet labeled data for each property remain scarce. To address this limitation, we introduce demonstration-conditioned diffusion models (DemoDiff), which define task contexts using a small set of molecule-score examples instead of text descriptions. These demonstrations guide a denoising Transformer to generate molecules aligned with target properties. For scalable pretraining, we develop a new molecular tokenizer with Node Pair Encoding that represents molecules at the motif level, requiring 5.5times fewer nodes. We curate a dataset containing millions of context tasks from multiple sources covering both drugs and materials, and pretrain a 0.7-billion-parameter model on it. Across 33 design tasks in six categories, DemoDiff matches or surpasses language models 100-1000times larger and achieves an average rank of 3.63 compared to 5.25-10.20 for domain-specific approaches. These results position DemoDiff as a molecular foundation model for in-context molecular design. Our code is available at https://github.com/liugangcode/DemoDiff.
PDF32October 14, 2025