Mol-R1: Naar Expliciete Lange-Keten Redenering in Molecuulontdekking

Samenvatting

Grote taalmodellen (LLM's), met name expliciete lange keten-van-gedachte (CoT) redeneermodellen zoals DeepSeek-R1 en QWQ, hebben krachtige redeneervaardigheden getoond en indrukwekkende prestaties geleverd in gezond verstand redeneren en wiskundige inferentie. Ondanks hun effectiviteit worden lange-CoT-redeneermodellen vaak bekritiseerd vanwege hun beperkte vermogen en lage efficiëntie in kennisintensieve domeinen zoals molecuulontdekking. Succes op dit gebied vereist een nauwkeurig begrip van domeinkennis, waaronder moleculaire structuren en chemische principes, wat een uitdaging is vanwege de inherente complexiteit van moleculaire data en de schaarste aan hoogwaardige expertannotaties. Om deze kloof te overbruggen, introduceren we Mol-R1, een nieuw framework ontworpen om de verklaarbaarheid en redeneerprestaties van R1-achtige expliciete lange-CoT-redeneer-LLM's in tekstgebaseerde molecuulgeneratie te verbeteren. Onze aanpak begint met een hoogwaardig redeneerdataset, samengesteld via Prior Regulation via In-context Distillation (PRID), een toegewijde distillatiestrategie om effectief gepaarde redeneersporen te genereren die worden geleid door voorafgaande regulaties. Hierop voortbouwend introduceren we MoIA, Molecular Iterative Adaptation, een verfijnde trainingsstrategie die iteratief Supervised Fine-tuning (SFT) combineert met Reinforced Policy Optimization (RPO), afgestemd om de redeneerprestaties van R1-achtige redeneermodellen voor molecuulontdekking te verbeteren. Ten slotte onderzoeken we de prestaties van Mol-R1 in de tekstgebaseerde molecuulredeneergeneratietaak, waarbij superieure prestaties worden getoond ten opzichte van bestaande baseline-modellen.

English

Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT) reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning capabilities, achieving impressive performance in commonsense reasoning and mathematical inference. Despite their effectiveness, Long-CoT reasoning models are often criticized for their limited ability and low efficiency in knowledge-intensive domains such as molecule discovery. Success in this field requires a precise understanding of domain knowledge, including molecular structures and chemical principles, which is challenging due to the inherent complexity of molecular data and the scarcity of high-quality expert annotations. To bridge this gap, we introduce Mol-R1, a novel framework designed to improve explainability and reasoning performance of R1-like Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our approach begins with a high-quality reasoning dataset curated through Prior Regulation via In-context Distillation (PRID), a dedicated distillation strategy to effectively generate paired reasoning traces guided by prior regulations. Building upon this, we introduce MoIA, Molecular Iterative Adaptation, a sophisticated training strategy that iteratively combines Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO), tailored to boost the reasoning performance of R1-like reasoning models for molecule discovery. Finally, we examine the performance of Mol-R1 in the text-based molecule reasoning generation task, showing superior performance against existing baselines.

Mol-R1: Naar Expliciete Lange-Keten Redenering in Molecuulontdekking

Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

Samenvatting

Support