ChatPaper.aiChatPaper

Mol-R1: Rumo ao Raciocínio Long-CoT Explícito na Descoberta de Moléculas

Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

August 11, 2025
Autores: Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs), especialmente modelos de raciocínio de Cadeia Longa de Pensamento Explícita (CoT), como DeepSeek-R1 e QWQ, demonstraram capacidades de raciocínio poderosas, alcançando desempenho impressionante em raciocínio de senso comum e inferência matemática. Apesar de sua eficácia, os modelos de raciocínio Long-CoT são frequentemente criticados por sua capacidade limitada e baixa eficiência em domínios intensivos em conhecimento, como a descoberta de moléculas. O sucesso nesse campo requer um entendimento preciso do conhecimento do domínio, incluindo estruturas moleculares e princípios químicos, o que é desafiador devido à complexidade inerente dos dados moleculares e à escassez de anotações de alta qualidade feitas por especialistas. Para preencher essa lacuna, introduzimos o Mol-R1, uma nova estrutura projetada para melhorar a explicabilidade e o desempenho de raciocínio de LLMs de Cadeia Longa de Pensamento Explícita semelhantes ao R1 na geração de moléculas baseada em texto. Nossa abordagem começa com um conjunto de dados de raciocínio de alta qualidade, curado por meio de Regulação Prévia via Destilação em Contexto (PRID), uma estratégia de destilação dedicada para gerar efetivamente traços de raciocínio emparelhados guiados por regulamentações prévias. Com base nisso, introduzimos o MoIA, Adaptação Iterativa Molecular, uma estratégia de treinamento sofisticada que combina iterativamente Ajuste Fino Supervisionado (SFT) com Otimização de Política Reforçada (RPO), projetada para impulsionar o desempenho de raciocínio de modelos semelhantes ao R1 na descoberta de moléculas. Por fim, examinamos o desempenho do Mol-R1 na tarefa de geração de raciocínio molecular baseada em texto, mostrando um desempenho superior em relação às linhas de base existentes.
English
Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT) reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning capabilities, achieving impressive performance in commonsense reasoning and mathematical inference. Despite their effectiveness, Long-CoT reasoning models are often criticized for their limited ability and low efficiency in knowledge-intensive domains such as molecule discovery. Success in this field requires a precise understanding of domain knowledge, including molecular structures and chemical principles, which is challenging due to the inherent complexity of molecular data and the scarcity of high-quality expert annotations. To bridge this gap, we introduce Mol-R1, a novel framework designed to improve explainability and reasoning performance of R1-like Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our approach begins with a high-quality reasoning dataset curated through Prior Regulation via In-context Distillation (PRID), a dedicated distillation strategy to effectively generate paired reasoning traces guided by prior regulations. Building upon this, we introduce MoIA, Molecular Iterative Adaptation, a sophisticated training strategy that iteratively combines Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO), tailored to boost the reasoning performance of R1-like reasoning models for molecule discovery. Finally, we examine the performance of Mol-R1 in the text-based molecule reasoning generation task, showing superior performance against existing baselines.
PDF428August 14, 2025