ChatPaper.aiChatPaper

Mol-R1: Hacia un razonamiento explícito de cadena larga en el descubrimiento de moléculas

Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

August 11, 2025
Autores: Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs), especialmente los modelos de razonamiento de Cadena de Pensamiento Explícita Larga (CoT) como DeepSeek-R1 y QWQ, han demostrado capacidades de razonamiento potentes, logrando un rendimiento impresionante en razonamiento de sentido común e inferencia matemática. A pesar de su eficacia, los modelos de razonamiento Long-CoT suelen ser criticados por su capacidad limitada y baja eficiencia en dominios intensivos en conocimiento, como el descubrimiento de moléculas. El éxito en este campo requiere una comprensión precisa del conocimiento del dominio, incluyendo estructuras moleculares y principios químicos, lo cual es desafiante debido a la complejidad inherente de los datos moleculares y la escasez de anotaciones expertas de alta calidad. Para cerrar esta brecha, presentamos Mol-R1, un marco novedoso diseñado para mejorar la explicabilidad y el rendimiento de razonamiento de los LLMs de tipo R1 en la generación de moléculas basada en texto. Nuestro enfoque comienza con un conjunto de datos de razonamiento de alta calidad curado mediante la Regulación Previa a través de Destilación en Contexto (PRID), una estrategia de destilación dedicada para generar de manera efectiva trazas de razonamiento guiadas por regulaciones previas. Sobre esta base, introducimos MoIA, Adaptación Iterativa Molecular, una estrategia de entrenamiento sofisticada que combina iterativamente el Ajuste Fino Supervisado (SFT) con la Optimización de Políticas Reforzadas (RPO), diseñada para potenciar el rendimiento de razonamiento de los modelos tipo R1 en el descubrimiento de moléculas. Finalmente, examinamos el rendimiento de Mol-R1 en la tarea de generación de razonamiento molecular basado en texto, mostrando un rendimiento superior frente a los baselines existentes.
English
Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT) reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning capabilities, achieving impressive performance in commonsense reasoning and mathematical inference. Despite their effectiveness, Long-CoT reasoning models are often criticized for their limited ability and low efficiency in knowledge-intensive domains such as molecule discovery. Success in this field requires a precise understanding of domain knowledge, including molecular structures and chemical principles, which is challenging due to the inherent complexity of molecular data and the scarcity of high-quality expert annotations. To bridge this gap, we introduce Mol-R1, a novel framework designed to improve explainability and reasoning performance of R1-like Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our approach begins with a high-quality reasoning dataset curated through Prior Regulation via In-context Distillation (PRID), a dedicated distillation strategy to effectively generate paired reasoning traces guided by prior regulations. Building upon this, we introduce MoIA, Molecular Iterative Adaptation, a sophisticated training strategy that iteratively combines Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO), tailored to boost the reasoning performance of R1-like reasoning models for molecule discovery. Finally, we examine the performance of Mol-R1 in the text-based molecule reasoning generation task, showing superior performance against existing baselines.
PDF298August 14, 2025