Mol-R1: 分子発見における明示的長鎖推論の実現に向けて
Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery
August 11, 2025
著者: Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
cs.AI
要旨
大規模言語モデル(LLMs)、特にDeepSeek-R1やQWQのような明示的な長い連鎖思考(CoT)推論モデルは、常識推論や数学的推論において強力な推論能力を示し、印象的な性能を達成しています。しかし、その有効性にもかかわらず、長いCoT推論モデルは、分子発見のような知識集約的な領域において能力が限られており、効率が低いと批判されることが多いです。この分野での成功には、分子構造や化学原理を含むドメイン知識の正確な理解が必要であり、分子データの本質的な複雑さと高品質な専門家の注釈の不足により、これは困難です。このギャップを埋めるため、我々はMol-R1を紹介します。これは、テキストベースの分子生成において、R1のような明示的な長いCoT推論LLMsの説明可能性と推論性能を向上させるために設計された新しいフレームワークです。我々のアプローチは、事前規制による文脈内蒸留(PRID)を通じてキュレートされた高品質な推論データセットから始まります。これは、事前規制に導かれたペアの推論トレースを効果的に生成するための専用の蒸留戦略です。これに基づいて、我々はMoIA(Molecular Iterative Adaptation)を導入します。これは、教師あり微調整(SFT)と強化学習によるポリシー最適化(RPO)を反復的に組み合わせた洗練されたトレーニング戦略であり、分子発見のためのR1のような推論モデルの推論性能を向上させるために調整されています。最後に、我々はMol-R1のテキストベースの分子推論生成タスクにおける性能を検証し、既存のベースラインに対して優れた性能を示します。
English
Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT)
reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning
capabilities, achieving impressive performance in commonsense reasoning and
mathematical inference. Despite their effectiveness, Long-CoT reasoning models
are often criticized for their limited ability and low efficiency in
knowledge-intensive domains such as molecule discovery. Success in this field
requires a precise understanding of domain knowledge, including molecular
structures and chemical principles, which is challenging due to the inherent
complexity of molecular data and the scarcity of high-quality expert
annotations. To bridge this gap, we introduce Mol-R1, a novel framework
designed to improve explainability and reasoning performance of R1-like
Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our
approach begins with a high-quality reasoning dataset curated through Prior
Regulation via In-context Distillation (PRID), a dedicated distillation
strategy to effectively generate paired reasoning traces guided by prior
regulations. Building upon this, we introduce MoIA, Molecular Iterative
Adaptation, a sophisticated training strategy that iteratively combines
Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO),
tailored to boost the reasoning performance of R1-like reasoning models for
molecule discovery. Finally, we examine the performance of Mol-R1 in the
text-based molecule reasoning generation task, showing superior performance
against existing baselines.