ChatPaper.aiChatPaper

Mol-R1 : Vers un raisonnement explicite à long terme dans la découverte de molécules

Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

August 11, 2025
papers.authors: Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
cs.AI

papers.abstract

Les grands modèles de langage (LLMs), en particulier les modèles de raisonnement explicite à longue chaîne de pensée (CoT) comme DeepSeek-R1 et QWQ, ont démontré des capacités de raisonnement puissantes, obtenant des performances impressionnantes en raisonnement de bon sens et en inférence mathématique. Malgré leur efficacité, les modèles de raisonnement Long-CoT sont souvent critiqués pour leur capacité limitée et leur faible efficacité dans des domaines riches en connaissances, comme la découverte de molécules. Le succès dans ce domaine nécessite une compréhension précise des connaissances du domaine, incluant les structures moléculaires et les principes chimiques, ce qui est difficile en raison de la complexité inhérente des données moléculaires et de la rareté des annotations expertes de haute qualité. Pour combler cette lacune, nous introduisons Mol-R1, un nouveau cadre conçu pour améliorer l'explicabilité et les performances de raisonnement des LLMs de type R1 à CoT explicite dans la génération de molécules basée sur le texte. Notre approche commence par un ensemble de données de raisonnement de haute qualité, élaboré grâce à la Régulation Préalable via Distillation en Contexte (PRID), une stratégie de distillation dédiée pour générer efficacement des traces de raisonnement guidées par des régulations préalables. Sur cette base, nous introduisons MoIA, l'Adaptation Itérative Moléculaire, une stratégie d'entraînement sophistiquée qui combine de manière itérative le Fine-Tuning Supervisé (SFT) avec l'Optimisation de Politique Renforcée (RPO), conçue pour améliorer les performances de raisonnement des modèles de type R1 dans la découverte de molécules. Enfin, nous examinons les performances de Mol-R1 dans la tâche de génération de raisonnement moléculaire basée sur le texte, montrant une performance supérieure par rapport aux bases de référence existantes.
English
Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT) reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning capabilities, achieving impressive performance in commonsense reasoning and mathematical inference. Despite their effectiveness, Long-CoT reasoning models are often criticized for their limited ability and low efficiency in knowledge-intensive domains such as molecule discovery. Success in this field requires a precise understanding of domain knowledge, including molecular structures and chemical principles, which is challenging due to the inherent complexity of molecular data and the scarcity of high-quality expert annotations. To bridge this gap, we introduce Mol-R1, a novel framework designed to improve explainability and reasoning performance of R1-like Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our approach begins with a high-quality reasoning dataset curated through Prior Regulation via In-context Distillation (PRID), a dedicated distillation strategy to effectively generate paired reasoning traces guided by prior regulations. Building upon this, we introduce MoIA, Molecular Iterative Adaptation, a sophisticated training strategy that iteratively combines Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO), tailored to boost the reasoning performance of R1-like reasoning models for molecule discovery. Finally, we examine the performance of Mol-R1 in the text-based molecule reasoning generation task, showing superior performance against existing baselines.
PDF298August 14, 2025