Mol-R1: Rumo ao Raciocínio Long-CoT Explícito na Descoberta de Moléculas
Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery
August 11, 2025
Autores: Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs), especialmente modelos de raciocínio de Cadeia Longa de Pensamento Explícita (CoT), como DeepSeek-R1 e QWQ, demonstraram capacidades de raciocínio poderosas, alcançando desempenho impressionante em raciocínio de senso comum e inferência matemática. Apesar de sua eficácia, os modelos de raciocínio Long-CoT são frequentemente criticados por sua capacidade limitada e baixa eficiência em domínios intensivos em conhecimento, como a descoberta de moléculas. O sucesso nesse campo requer um entendimento preciso do conhecimento do domínio, incluindo estruturas moleculares e princípios químicos, o que é desafiador devido à complexidade inerente dos dados moleculares e à escassez de anotações de alta qualidade feitas por especialistas. Para preencher essa lacuna, introduzimos o Mol-R1, uma nova estrutura projetada para melhorar a explicabilidade e o desempenho de raciocínio de LLMs de Cadeia Longa de Pensamento Explícita semelhantes ao R1 na geração de moléculas baseada em texto. Nossa abordagem começa com um conjunto de dados de raciocínio de alta qualidade, curado por meio de Regulação Prévia via Destilação em Contexto (PRID), uma estratégia de destilação dedicada para gerar efetivamente traços de raciocínio emparelhados guiados por regulamentações prévias. Com base nisso, introduzimos o MoIA, Adaptação Iterativa Molecular, uma estratégia de treinamento sofisticada que combina iterativamente Ajuste Fino Supervisionado (SFT) com Otimização de Política Reforçada (RPO), projetada para impulsionar o desempenho de raciocínio de modelos semelhantes ao R1 na descoberta de moléculas. Por fim, examinamos o desempenho do Mol-R1 na tarefa de geração de raciocínio molecular baseada em texto, mostrando um desempenho superior em relação às linhas de base existentes.
English
Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT)
reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning
capabilities, achieving impressive performance in commonsense reasoning and
mathematical inference. Despite their effectiveness, Long-CoT reasoning models
are often criticized for their limited ability and low efficiency in
knowledge-intensive domains such as molecule discovery. Success in this field
requires a precise understanding of domain knowledge, including molecular
structures and chemical principles, which is challenging due to the inherent
complexity of molecular data and the scarcity of high-quality expert
annotations. To bridge this gap, we introduce Mol-R1, a novel framework
designed to improve explainability and reasoning performance of R1-like
Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our
approach begins with a high-quality reasoning dataset curated through Prior
Regulation via In-context Distillation (PRID), a dedicated distillation
strategy to effectively generate paired reasoning traces guided by prior
regulations. Building upon this, we introduce MoIA, Molecular Iterative
Adaptation, a sophisticated training strategy that iteratively combines
Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO),
tailored to boost the reasoning performance of R1-like reasoning models for
molecule discovery. Finally, we examine the performance of Mol-R1 in the
text-based molecule reasoning generation task, showing superior performance
against existing baselines.