Mol-R1 : Vers un raisonnement explicite à long terme dans la découverte de molécules
Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery
August 11, 2025
papers.authors: Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
cs.AI
papers.abstract
Les grands modèles de langage (LLMs), en particulier les modèles de raisonnement explicite à longue chaîne de pensée (CoT) comme DeepSeek-R1 et QWQ, ont démontré des capacités de raisonnement puissantes, obtenant des performances impressionnantes en raisonnement de bon sens et en inférence mathématique. Malgré leur efficacité, les modèles de raisonnement Long-CoT sont souvent critiqués pour leur capacité limitée et leur faible efficacité dans des domaines riches en connaissances, comme la découverte de molécules. Le succès dans ce domaine nécessite une compréhension précise des connaissances du domaine, incluant les structures moléculaires et les principes chimiques, ce qui est difficile en raison de la complexité inhérente des données moléculaires et de la rareté des annotations expertes de haute qualité. Pour combler cette lacune, nous introduisons Mol-R1, un nouveau cadre conçu pour améliorer l'explicabilité et les performances de raisonnement des LLMs de type R1 à CoT explicite dans la génération de molécules basée sur le texte. Notre approche commence par un ensemble de données de raisonnement de haute qualité, élaboré grâce à la Régulation Préalable via Distillation en Contexte (PRID), une stratégie de distillation dédiée pour générer efficacement des traces de raisonnement guidées par des régulations préalables. Sur cette base, nous introduisons MoIA, l'Adaptation Itérative Moléculaire, une stratégie d'entraînement sophistiquée qui combine de manière itérative le Fine-Tuning Supervisé (SFT) avec l'Optimisation de Politique Renforcée (RPO), conçue pour améliorer les performances de raisonnement des modèles de type R1 dans la découverte de molécules. Enfin, nous examinons les performances de Mol-R1 dans la tâche de génération de raisonnement moléculaire basée sur le texte, montrant une performance supérieure par rapport aux bases de référence existantes.
English
Large language models (LLMs), especially Explicit Long Chain-of-Thought (CoT)
reasoning models like DeepSeek-R1 and QWQ, have demonstrated powerful reasoning
capabilities, achieving impressive performance in commonsense reasoning and
mathematical inference. Despite their effectiveness, Long-CoT reasoning models
are often criticized for their limited ability and low efficiency in
knowledge-intensive domains such as molecule discovery. Success in this field
requires a precise understanding of domain knowledge, including molecular
structures and chemical principles, which is challenging due to the inherent
complexity of molecular data and the scarcity of high-quality expert
annotations. To bridge this gap, we introduce Mol-R1, a novel framework
designed to improve explainability and reasoning performance of R1-like
Explicit Long-CoT reasoning LLMs in text-based molecule generation. Our
approach begins with a high-quality reasoning dataset curated through Prior
Regulation via In-context Distillation (PRID), a dedicated distillation
strategy to effectively generate paired reasoning traces guided by prior
regulations. Building upon this, we introduce MoIA, Molecular Iterative
Adaptation, a sophisticated training strategy that iteratively combines
Supervised Fine-tuning (SFT) with Reinforced Policy Optimization (RPO),
tailored to boost the reasoning performance of R1-like reasoning models for
molecule discovery. Finally, we examine the performance of Mol-R1 in the
text-based molecule reasoning generation task, showing superior performance
against existing baselines.