グラフ拡散トランスフォーマーは、インコンテキスト分子デザイナーとして機能する。
Graph Diffusion Transformers are In-Context Molecular Designers
October 9, 2025
著者: Gang Liu, Jie Chen, Yihan Zhu, Michael Sun, Tengfei Luo, Nitesh V Chawla, Meng Jiang
cs.AI
要旨
コンテキスト内学習により、大規模モデルは少数のデモンストレーションから新しいタスクに適応できますが、分子設計では限定的な成功しか示していません。ChEMBLなどの既存のデータベースには数百万の生物学的アッセイにわたる分子特性が含まれていますが、各特性のラベル付きデータは依然として不足しています。この制約に対処するため、テキスト記述の代わりに少数の分子-スコア例を使用してタスクコンテキストを定義するデモンストレーション条件付き拡散モデル(DemoDiff)を導入します。これらのデモンストレーションは、ノイズ除去Transformerを導き、ターゲット特性に沿った分子を生成します。スケーラブルな事前学習のために、モチーフレベルで分子を表現し、ノード数を5.5倍削減するNode Pair Encodingを用いた新しい分子トークナイザーを開発しました。薬物と材料の両方をカバーする複数のソースから数百万のコンテキストタスクを含むデータセットをキュレーションし、0.7億パラメータのモデルを事前学習しました。6カテゴリーの33設計タスクにおいて、DemoDiffは100-1000倍大きい言語モデルに匹敵またはそれを上回り、ドメイン固有アプローチの5.25-10.20に対して平均順位3.63を達成しました。これらの結果は、DemoDiffをコンテキスト内分子設計のための分子基盤モデルとして位置づけます。コードはhttps://github.com/liugangcode/DemoDiffで公開されています。
English
In-context learning allows large models to adapt to new tasks from a few
demonstrations, but it has shown limited success in molecular design. Existing
databases such as ChEMBL contain molecular properties spanning millions of
biological assays, yet labeled data for each property remain scarce. To address
this limitation, we introduce demonstration-conditioned diffusion models
(DemoDiff), which define task contexts using a small set of molecule-score
examples instead of text descriptions. These demonstrations guide a denoising
Transformer to generate molecules aligned with target properties. For scalable
pretraining, we develop a new molecular tokenizer with Node Pair Encoding that
represents molecules at the motif level, requiring 5.5times fewer nodes. We
curate a dataset containing millions of context tasks from multiple sources
covering both drugs and materials, and pretrain a 0.7-billion-parameter model
on it. Across 33 design tasks in six categories, DemoDiff matches or surpasses
language models 100-1000times larger and achieves an average rank of 3.63
compared to 5.25-10.20 for domain-specific approaches. These results position
DemoDiff as a molecular foundation model for in-context molecular design. Our
code is available at https://github.com/liugangcode/DemoDiff.