Mol-R1: К явному длинному рассуждению с цепочкой мыслей в открытии молекул
Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery
August 11, 2025
Авторы: Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
cs.AI
Аннотация
Крупные языковые модели (LLM), особенно модели с явным длинным цепочкообразным рассуждением (Explicit Long Chain-of-Thought, CoT), такие как DeepSeek-R1 и QWQ, продемонстрировали мощные способности к рассуждению, достигнув впечатляющих результатов в задачах здравого смысла и математического вывода. Несмотря на их эффективность, модели с длинным CoT часто критикуют за ограниченные возможности и низкую эффективность в областях, требующих глубоких знаний, таких как открытие молекул. Успех в этой области требует точного понимания предметных знаний, включая молекулярные структуры и химические принципы, что является сложной задачей из-за присущей молекулярным данным сложности и недостатка высококачественных экспертных аннотаций. Чтобы устранить этот разрыв, мы представляем Mol-R1 — новый фреймворк, разработанный для повышения объяснимости и производительности рассуждений в моделях, подобных R1, с явным длинным CoT, в задачах генерации молекул на основе текста. Наш подход начинается с создания высококачественного набора данных для рассуждений, подготовленного с помощью стратегии Prior Regulation via In-context Distillation (PRID), которая эффективно генерирует парные траектории рассуждений, руководствуясь предварительными правилами. На основе этого мы представляем MoIA (Molecular Iterative Adaptation) — сложную стратегию обучения, которая итеративно сочетает контролируемую тонкую настройку (Supervised Fine-tuning, SFT) с оптимизацией политики с подкреплением (Reinforced Policy Optimization, RPO), адаптированную для повышения производительности рассуждений в моделях, подобных R1, в задачах открытия молекул. Наконец, мы оцениваем производительность Mol-R1 в задаче генерации молекул на основе текстовых рассуждений, демонстрируя превосходные результаты по сравнению с существующими базовыми методами.
English
Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT)
reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning
capabilities, achieving impressive performance in commonsense reasoning and
mathematical inference. Despite their effectiveness, Long-CoT reasoning models
are often criticized for their limited ability and low efficiency in
knowledge-intensive domains such as molecule discovery. Success in this field
requires a precise understanding of domain knowledge, including molecular
structures and chemical principles, which is challenging due to the inherent
complexity of molecular data and the scarcity of high-quality expert
annotations. To bridge this gap, we introduce Mol-R1, a novel framework
designed to improve explainability and reasoning performance of R1-like
Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our
approach begins with a high-quality reasoning dataset curated through Prior
Regulation via In-context Distillation (PRID), a dedicated distillation
strategy to effectively generate paired reasoning traces guided by prior
regulations. Building upon this, we introduce MoIA, Molecular Iterative
Adaptation, a sophisticated training strategy that iteratively combines
Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO),
tailored to boost the reasoning performance of R1-like reasoning models for
molecule discovery. Finally, we examine the performance of Mol-R1 in the
text-based molecule reasoning generation task, showing superior performance
against existing baselines.