ChatPaper.aiChatPaper

ChemDFM-R : Un raisonneur chimique LLM enrichi par une connaissance chimique atomisée

ChemDFM-R: An Chemical Reasoner LLM Enhanced with Atomized Chemical Knowledge

July 29, 2025
papers.authors: Zihan Zhao, Bo Chen, Ziping Wan, Lu Chen, Xuanze Lin, Shiyang Yu, Situo Zhang, Da Ma, Zichen Zhu, Danyang Zhang, Huayang Wang, Zhongyang Dai, Liyang Wen, Xin Chen, Kai Yu
cs.AI

papers.abstract

Si les grands modèles de langage (LLM) ont réalisé des progrès impressionnants, leur application dans des domaines scientifiques comme la chimie reste entravée par une compréhension superficielle du domaine et des capacités de raisonnement limitées. Dans ce travail, nous nous concentrons sur le domaine spécifique de la chimie et développons un modèle de langage spécialisé en raisonnement chimique, ChemDFM-R. Nous commençons par construire un ensemble de données complet de points de connaissance atomisés pour améliorer la compréhension du modèle des principes fondamentaux et de la structure logique de la chimie. Ensuite, nous proposons une stratégie de distillation mixte qui intègre des connaissances expertes avec des compétences de raisonnement générales, suivie d'un apprentissage par renforcement spécifique au domaine pour renforcer le raisonnement chimique. Les expériences sur divers benchmarks chimiques démontrent que ChemDFM-R atteint des performances de pointe tout en fournissant des sorties interprétables et guidées par des justifications. Des études de cas supplémentaires illustrent comment des chaînes de raisonnement explicites améliorent significativement la fiabilité, la transparence et l'utilité pratique du modèle dans des scénarios réels de collaboration humain-IA.
English
While large language models (LLMs) have achieved impressive progress, their application in scientific domains such as chemistry remains hindered by shallow domain understanding and limited reasoning capabilities. In this work, we focus on the specific field of chemistry and develop a Chemical Reasoner LLM, ChemDFM-R. We first construct a comprehensive dataset of atomized knowledge points to enhance the model's understanding of the fundamental principles and logical structure of chemistry. Then, we propose a mix-sourced distillation strategy that integrates expert-curated knowledge with general-domain reasoning skills, followed by domain-specific reinforcement learning to enhance chemical reasoning. Experiments on diverse chemical benchmarks demonstrate that ChemDFM-R achieves state-of-the-art performance while providing interpretable, rationale-driven outputs. Further case studies illustrate how explicit reasoning chains significantly improve the reliability, transparency, and practical utility of the model in real-world human-AI collaboration scenarios.
PDF232July 30, 2025