Mol-R1: Hin zu explizitem Long-CoT-Reasoning in der Molekülentdeckung

papers.abstract

Große Sprachmodelle (LLMs), insbesondere Modelle mit expliziter Langkette von Gedanken (Explicit Long Chain-of-Thought, CoT) wie DeepSeek-R1 und QWQ, haben beeindruckende Fähigkeiten im Bereich des logischen Schließens unter Beweis gestellt und dabei bemerkenswerte Leistungen im Bereich des gesunden Menschenverstands und der mathematischen Inferenz erzielt. Trotz ihrer Effektivität werden Long-CoT-Modelle oft für ihre begrenzten Fähigkeiten und geringe Effizienz in wissensintensiven Domänen wie der Molekülentdeckung kritisiert. Erfolg in diesem Bereich erfordert ein präzises Verständnis von Domänenwissen, einschließlich molekularer Strukturen und chemischer Prinzipien, was aufgrund der inhärenten Komplexität molekularer Daten und der Knappheit hochwertiger Expertenannotationen eine Herausforderung darstellt. Um diese Lücke zu schließen, führen wir Mol-R1 ein, ein neuartiges Framework, das darauf abzielt, die Erklärbarkeit und die Schließungsleistung von R1-ähnlichen Explicit Long-CoT-LLMs bei der textbasierten Molekülgenerierung zu verbessern. Unser Ansatz beginnt mit einem hochwertigen Schließungsdatensatz, der durch Prior Regulation via In-context Distillation (PRID) kuratiert wurde, einer speziellen Destillationsstrategie, um effektiv gepaarte Schließungsspuren zu generieren, die durch vorherige Regulierungen geleitet werden. Darauf aufbauend führen wir MoIA, Molecular Iterative Adaptation, eine ausgefeilte Trainingsstrategie ein, die iterativ Supervised Fine-tuning (SFT) mit Reinforced Policy Optimization (RPO) kombiniert, um die Schließungsleistung von R1-ähnlichen Modellen für die Molekülentdeckung zu steigern. Schließlich untersuchen wir die Leistung von Mol-R1 in der Aufgabe der textbasierten Molekülschließungsgenerierung und zeigen dabei eine überlegene Leistung im Vergleich zu bestehenden Baselines.

English

Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT) reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning capabilities, achieving impressive performance in commonsense reasoning and mathematical inference. Despite their effectiveness, Long-CoT reasoning models are often criticized for their limited ability and low efficiency in knowledge-intensive domains such as molecule discovery. Success in this field requires a precise understanding of domain knowledge, including molecular structures and chemical principles, which is challenging due to the inherent complexity of molecular data and the scarcity of high-quality expert annotations. To bridge this gap, we introduce Mol-R1, a novel framework designed to improve explainability and reasoning performance of R1-like Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our approach begins with a high-quality reasoning dataset curated through Prior Regulation via In-context Distillation (PRID), a dedicated distillation strategy to effectively generate paired reasoning traces guided by prior regulations. Building upon this, we introduce MoIA, Molecular Iterative Adaptation, a sophisticated training strategy that iteratively combines Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO), tailored to boost the reasoning performance of R1-like reasoning models for molecule discovery. Finally, we examine the performance of Mol-R1 in the text-based molecule reasoning generation task, showing superior performance against existing baselines.

Mol-R1: Hin zu explizitem Long-CoT-Reasoning in der Molekülentdeckung

Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

papers.abstract

Support