Mol-R1: К явному длинному рассуждению с цепочкой мыслей в открытии молекул

Аннотация

Крупные языковые модели (LLM), особенно модели с явным длинным цепочкообразным рассуждением (Explicit Long Chain-of-Thought, CoT), такие как DeepSeek-R1 и QWQ, продемонстрировали мощные способности к рассуждению, достигнув впечатляющих результатов в задачах здравого смысла и математического вывода. Несмотря на их эффективность, модели с длинным CoT часто критикуют за ограниченные возможности и низкую эффективность в областях, требующих глубоких знаний, таких как открытие молекул. Успех в этой области требует точного понимания предметных знаний, включая молекулярные структуры и химические принципы, что является сложной задачей из-за присущей молекулярным данным сложности и недостатка высококачественных экспертных аннотаций. Чтобы устранить этот разрыв, мы представляем Mol-R1 — новый фреймворк, разработанный для повышения объяснимости и производительности рассуждений в моделях, подобных R1, с явным длинным CoT, в задачах генерации молекул на основе текста. Наш подход начинается с создания высококачественного набора данных для рассуждений, подготовленного с помощью стратегии Prior Regulation via In-context Distillation (PRID), которая эффективно генерирует парные траектории рассуждений, руководствуясь предварительными правилами. На основе этого мы представляем MoIA (Molecular Iterative Adaptation) — сложную стратегию обучения, которая итеративно сочетает контролируемую тонкую настройку (Supervised Fine-tuning, SFT) с оптимизацией политики с подкреплением (Reinforced Policy Optimization, RPO), адаптированную для повышения производительности рассуждений в моделях, подобных R1, в задачах открытия молекул. Наконец, мы оцениваем производительность Mol-R1 в задаче генерации молекул на основе текстовых рассуждений, демонстрируя превосходные результаты по сравнению с существующими базовыми методами.

English

Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT) reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning capabilities, achieving impressive performance in commonsense reasoning and mathematical inference. Despite their effectiveness, Long-CoT reasoning models are often criticized for their limited ability and low efficiency in knowledge-intensive domains such as molecule discovery. Success in this field requires a precise understanding of domain knowledge, including molecular structures and chemical principles, which is challenging due to the inherent complexity of molecular data and the scarcity of high-quality expert annotations. To bridge this gap, we introduce Mol-R1, a novel framework designed to improve explainability and reasoning performance of R1-like Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our approach begins with a high-quality reasoning dataset curated through Prior Regulation via In-context Distillation (PRID), a dedicated distillation strategy to effectively generate paired reasoning traces guided by prior regulations. Building upon this, we introduce MoIA, Molecular Iterative Adaptation, a sophisticated training strategy that iteratively combines Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO), tailored to boost the reasoning performance of R1-like reasoning models for molecule discovery. Finally, we examine the performance of Mol-R1 in the text-based molecule reasoning generation task, showing superior performance against existing baselines.

Mol-R1: К явному длинному рассуждению с цепочкой мыслей в открытии молекул

Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

Аннотация

Support