ChatPaper.aiChatPaper

Графовые диффузионные трансформаторы — это контекстные проектировщики молекул.

Graph Diffusion Transformers are In-Context Molecular Designers

October 9, 2025
Авторы: Gang Liu, Jie Chen, Yihan Zhu, Michael Sun, Tengfei Luo, Nitesh V Chawla, Meng Jiang
cs.AI

Аннотация

Обучение в контексте позволяет крупным моделям адаптироваться к новым задачам на основе нескольких примеров, однако в молекулярном дизайне этот подход показал ограниченный успех. Существующие базы данных, такие как ChEMBL, содержат молекулярные свойства, охватывающие миллионы биологических тестов, однако размеченные данные для каждого свойства остаются скудными. Чтобы устранить это ограничение, мы представляем диффузионные модели, обусловленные демонстрациями (DemoDiff), которые определяют контекст задачи с помощью небольшого набора примеров молекул и их оценок вместо текстовых описаний. Эти демонстрации направляют денойзинговый трансформер для генерации молекул, соответствующих целевым свойствам. Для масштабируемого предобучения мы разработали новый молекулярный токенизатор с кодированием пар узлов (Node Pair Encoding), который представляет молекулы на уровне мотивов, требуя в 5,5 раз меньше узлов. Мы собрали набор данных, содержащий миллионы контекстных задач из различных источников, охватывающих как лекарства, так и материалы, и предобучили на нем модель с 0,7 миллиардами параметров. На 33 задачах дизайна в шести категориях DemoDiff соответствует или превосходит языковые модели, в 100–1000 раз более крупные, и достигает среднего ранга 3,63 по сравнению с 5,25–10,20 для специализированных подходов. Эти результаты позиционируют DemoDiff как фундаментальную модель для молекулярного дизайна в контексте. Наш код доступен по адресу https://github.com/liugangcode/DemoDiff.
English
In-context learning allows large models to adapt to new tasks from a few demonstrations, but it has shown limited success in molecular design. Existing databases such as ChEMBL contain molecular properties spanning millions of biological assays, yet labeled data for each property remain scarce. To address this limitation, we introduce demonstration-conditioned diffusion models (DemoDiff), which define task contexts using a small set of molecule-score examples instead of text descriptions. These demonstrations guide a denoising Transformer to generate molecules aligned with target properties. For scalable pretraining, we develop a new molecular tokenizer with Node Pair Encoding that represents molecules at the motif level, requiring 5.5times fewer nodes. We curate a dataset containing millions of context tasks from multiple sources covering both drugs and materials, and pretrain a 0.7-billion-parameter model on it. Across 33 design tasks in six categories, DemoDiff matches or surpasses language models 100-1000times larger and achieves an average rank of 3.63 compared to 5.25-10.20 for domain-specific approaches. These results position DemoDiff as a molecular foundation model for in-context molecular design. Our code is available at https://github.com/liugangcode/DemoDiff.
PDF32October 14, 2025