Mol-R1: Naar Expliciete Lange-Keten Redenering in Molecuulontdekking
Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery
August 11, 2025
Auteurs: Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
cs.AI
Samenvatting
Grote taalmodellen (LLM's), met name expliciete lange keten-van-gedachte (CoT) redeneermodellen zoals DeepSeek-R1 en QWQ, hebben krachtige redeneervaardigheden getoond en indrukwekkende prestaties geleverd in gezond verstand redeneren en wiskundige inferentie. Ondanks hun effectiviteit worden lange-CoT-redeneermodellen vaak bekritiseerd vanwege hun beperkte vermogen en lage efficiëntie in kennisintensieve domeinen zoals molecuulontdekking. Succes op dit gebied vereist een nauwkeurig begrip van domeinkennis, waaronder moleculaire structuren en chemische principes, wat een uitdaging is vanwege de inherente complexiteit van moleculaire data en de schaarste aan hoogwaardige expertannotaties. Om deze kloof te overbruggen, introduceren we Mol-R1, een nieuw framework ontworpen om de verklaarbaarheid en redeneerprestaties van R1-achtige expliciete lange-CoT-redeneer-LLM's in tekstgebaseerde molecuulgeneratie te verbeteren. Onze aanpak begint met een hoogwaardig redeneerdataset, samengesteld via Prior Regulation via In-context Distillation (PRID), een toegewijde distillatiestrategie om effectief gepaarde redeneersporen te genereren die worden geleid door voorafgaande regulaties. Hierop voortbouwend introduceren we MoIA, Molecular Iterative Adaptation, een verfijnde trainingsstrategie die iteratief Supervised Fine-tuning (SFT) combineert met Reinforced Policy Optimization (RPO), afgestemd om de redeneerprestaties van R1-achtige redeneermodellen voor molecuulontdekking te verbeteren. Ten slotte onderzoeken we de prestaties van Mol-R1 in de tekstgebaseerde molecuulredeneergeneratietaak, waarbij superieure prestaties worden getoond ten opzichte van bestaande baseline-modellen.
English
Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT)
reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning
capabilities, achieving impressive performance in commonsense reasoning and
mathematical inference. Despite their effectiveness, Long-CoT reasoning models
are often criticized for their limited ability and low efficiency in
knowledge-intensive domains such as molecule discovery. Success in this field
requires a precise understanding of domain knowledge, including molecular
structures and chemical principles, which is challenging due to the inherent
complexity of molecular data and the scarcity of high-quality expert
annotations. To bridge this gap, we introduce Mol-R1, a novel framework
designed to improve explainability and reasoning performance of R1-like
Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our
approach begins with a high-quality reasoning dataset curated through Prior
Regulation via In-context Distillation (PRID), a dedicated distillation
strategy to effectively generate paired reasoning traces guided by prior
regulations. Building upon this, we introduce MoIA, Molecular Iterative
Adaptation, a sophisticated training strategy that iteratively combines
Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO),
tailored to boost the reasoning performance of R1-like reasoning models for
molecule discovery. Finally, we examine the performance of Mol-R1 in the
text-based molecule reasoning generation task, showing superior performance
against existing baselines.