Mol-R1: Hin zu explizitem Long-CoT-Reasoning in der Molekülentdeckung
Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery
August 11, 2025
papers.authors: Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
cs.AI
papers.abstract
Große Sprachmodelle (LLMs), insbesondere Modelle mit expliziter Langkette von Gedanken (Explicit Long Chain-of-Thought, CoT) wie DeepSeek-R1 und QWQ, haben beeindruckende Fähigkeiten im Bereich des logischen Schließens unter Beweis gestellt und dabei bemerkenswerte Leistungen im Bereich des gesunden Menschenverstands und der mathematischen Inferenz erzielt. Trotz ihrer Effektivität werden Long-CoT-Modelle oft für ihre begrenzten Fähigkeiten und geringe Effizienz in wissensintensiven Domänen wie der Molekülentdeckung kritisiert. Erfolg in diesem Bereich erfordert ein präzises Verständnis von Domänenwissen, einschließlich molekularer Strukturen und chemischer Prinzipien, was aufgrund der inhärenten Komplexität molekularer Daten und der Knappheit hochwertiger Expertenannotationen eine Herausforderung darstellt. Um diese Lücke zu schließen, führen wir Mol-R1 ein, ein neuartiges Framework, das darauf abzielt, die Erklärbarkeit und die Schließungsleistung von R1-ähnlichen Explicit Long-CoT-LLMs bei der textbasierten Molekülgenerierung zu verbessern. Unser Ansatz beginnt mit einem hochwertigen Schließungsdatensatz, der durch Prior Regulation via In-context Distillation (PRID) kuratiert wurde, einer speziellen Destillationsstrategie, um effektiv gepaarte Schließungsspuren zu generieren, die durch vorherige Regulierungen geleitet werden. Darauf aufbauend führen wir MoIA, Molecular Iterative Adaptation, eine ausgefeilte Trainingsstrategie ein, die iterativ Supervised Fine-tuning (SFT) mit Reinforced Policy Optimization (RPO) kombiniert, um die Schließungsleistung von R1-ähnlichen Modellen für die Molekülentdeckung zu steigern. Schließlich untersuchen wir die Leistung von Mol-R1 in der Aufgabe der textbasierten Molekülschließungsgenerierung und zeigen dabei eine überlegene Leistung im Vergleich zu bestehenden Baselines.
English
Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT)
reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning
capabilities, achieving impressive performance in commonsense reasoning and
mathematical inference. Despite their effectiveness, Long-CoT reasoning models
are often criticized for their limited ability and low efficiency in
knowledge-intensive domains such as molecule discovery. Success in this field
requires a precise understanding of domain knowledge, including molecular
structures and chemical principles, which is challenging due to the inherent
complexity of molecular data and the scarcity of high-quality expert
annotations. To bridge this gap, we introduce Mol-R1, a novel framework
designed to improve explainability and reasoning performance of R1-like
Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our
approach begins with a high-quality reasoning dataset curated through Prior
Regulation via In-context Distillation (PRID), a dedicated distillation
strategy to effectively generate paired reasoning traces guided by prior
regulations. Building upon this, we introduce MoIA, Molecular Iterative
Adaptation, a sophisticated training strategy that iteratively combines
Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO),
tailored to boost the reasoning performance of R1-like reasoning models for
molecule discovery. Finally, we examine the performance of Mol-R1 in the
text-based molecule reasoning generation task, showing superior performance
against existing baselines.