Mol-R1: Verso un ragionamento esplicito a lungo termine (Long-CoT) nella scoperta di molecole

Abstract

I grandi modelli linguistici (LLM), in particolare i modelli di ragionamento a catena esplicita lunga (CoT) come DeepSeek-R1 e QWQ, hanno dimostrato potenti capacità di ragionamento, ottenendo prestazioni impressionanti nel ragionamento di senso comune e nell'inferenza matematica. Nonostante la loro efficacia, i modelli di ragionamento Long-CoT sono spesso criticati per la loro capacità limitata e la bassa efficienza in domini ad alta intensità di conoscenza come la scoperta di molecole. Il successo in questo campo richiede una comprensione precisa delle conoscenze di dominio, incluse le strutture molecolari e i principi chimici, il che è impegnativo a causa della complessità intrinseca dei dati molecolari e della scarsità di annotazioni di alta qualità da parte di esperti. Per colmare questa lacuna, introduciamo Mol-R1, un nuovo framework progettato per migliorare l'interpretabilità e le prestazioni di ragionamento dei LLM di tipo R1 a catena esplicita lunga nella generazione di molecole basata su testo. Il nostro approccio inizia con un dataset di ragionamento di alta qualità curato tramite Prior Regulation via In-context Distillation (PRID), una strategia di distillazione dedicata per generare efficacemente tracce di ragionamento accoppiate guidate da regolazioni precedenti. Su questa base, introduciamo MoIA, Molecular Iterative Adaptation, una sofisticata strategia di addestramento che combina iterativamente il Fine-tuning Supervisionato (SFT) con l'Ottimizzazione delle Politiche Rinforzate (RPO), progettata per potenziare le prestazioni di ragionamento dei modelli di tipo R1 per la scoperta di molecole. Infine, esaminiamo le prestazioni di Mol-R1 nel compito di generazione di ragionamento molecolare basato su testo, mostrando prestazioni superiori rispetto ai baselines esistenti.

English

Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT) reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning capabilities, achieving impressive performance in commonsense reasoning and mathematical inference. Despite their effectiveness, Long-CoT reasoning models are often criticized for their limited ability and low efficiency in knowledge-intensive domains such as molecule discovery. Success in this field requires a precise understanding of domain knowledge, including molecular structures and chemical principles, which is challenging due to the inherent complexity of molecular data and the scarcity of high-quality expert annotations. To bridge this gap, we introduce Mol-R1, a novel framework designed to improve explainability and reasoning performance of R1-like Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our approach begins with a high-quality reasoning dataset curated through Prior Regulation via In-context Distillation (PRID), a dedicated distillation strategy to effectively generate paired reasoning traces guided by prior regulations. Building upon this, we introduce MoIA, Molecular Iterative Adaptation, a sophisticated training strategy that iteratively combines Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO), tailored to boost the reasoning performance of R1-like reasoning models for molecule discovery. Finally, we examine the performance of Mol-R1 in the text-based molecule reasoning generation task, showing superior performance against existing baselines.

Mol-R1: Verso un ragionamento esplicito a lungo termine (Long-CoT) nella scoperta di molecole

Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

Abstract

Support