Mol-R1: Verso un ragionamento esplicito a lungo termine (Long-CoT) nella scoperta di molecole
Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery
August 11, 2025
Autori: Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
cs.AI
Abstract
I grandi modelli linguistici (LLM), in particolare i modelli di ragionamento a catena esplicita lunga (CoT) come DeepSeek-R1 e QWQ, hanno dimostrato potenti capacità di ragionamento, ottenendo prestazioni impressionanti nel ragionamento di senso comune e nell'inferenza matematica. Nonostante la loro efficacia, i modelli di ragionamento Long-CoT sono spesso criticati per la loro capacità limitata e la bassa efficienza in domini ad alta intensità di conoscenza come la scoperta di molecole. Il successo in questo campo richiede una comprensione precisa delle conoscenze di dominio, incluse le strutture molecolari e i principi chimici, il che è impegnativo a causa della complessità intrinseca dei dati molecolari e della scarsità di annotazioni di alta qualità da parte di esperti. Per colmare questa lacuna, introduciamo Mol-R1, un nuovo framework progettato per migliorare l'interpretabilità e le prestazioni di ragionamento dei LLM di tipo R1 a catena esplicita lunga nella generazione di molecole basata su testo. Il nostro approccio inizia con un dataset di ragionamento di alta qualità curato tramite Prior Regulation via In-context Distillation (PRID), una strategia di distillazione dedicata per generare efficacemente tracce di ragionamento accoppiate guidate da regolazioni precedenti. Su questa base, introduciamo MoIA, Molecular Iterative Adaptation, una sofisticata strategia di addestramento che combina iterativamente il Fine-tuning Supervisionato (SFT) con l'Ottimizzazione delle Politiche Rinforzate (RPO), progettata per potenziare le prestazioni di ragionamento dei modelli di tipo R1 per la scoperta di molecole. Infine, esaminiamo le prestazioni di Mol-R1 nel compito di generazione di ragionamento molecolare basato su testo, mostrando prestazioni superiori rispetto ai baselines esistenti.
English
Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT)
reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning
capabilities, achieving impressive performance in commonsense reasoning and
mathematical inference. Despite their effectiveness, Long-CoT reasoning models
are often criticized for their limited ability and low efficiency in
knowledge-intensive domains such as molecule discovery. Success in this field
requires a precise understanding of domain knowledge, including molecular
structures and chemical principles, which is challenging due to the inherent
complexity of molecular data and the scarcity of high-quality expert
annotations. To bridge this gap, we introduce Mol-R1, a novel framework
designed to improve explainability and reasoning performance of R1-like
Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our
approach begins with a high-quality reasoning dataset curated through Prior
Regulation via In-context Distillation (PRID), a dedicated distillation
strategy to effectively generate paired reasoning traces guided by prior
regulations. Building upon this, we introduce MoIA, Molecular Iterative
Adaptation, a sophisticated training strategy that iteratively combines
Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO),
tailored to boost the reasoning performance of R1-like reasoning models for
molecule discovery. Finally, we examine the performance of Mol-R1 in the
text-based molecule reasoning generation task, showing superior performance
against existing baselines.