ChemDFM-R: Un Motore di Ragionamento Chimico LLM Potenziato con Conoscenza Chimica Atomizzata
ChemDFM-R: An Chemical Reasoner LLM Enhanced with Atomized Chemical Knowledge
July 29, 2025
Autori: Zihan Zhao, Bo Chen, Ziping Wan, Lu Chen, Xuanze Lin, Shiyang Yu, Situo Zhang, Da Ma, Zichen Zhu, Danyang Zhang, Huayang Wang, Zhongyang Dai, Liyang Wen, Xin Chen, Kai Yu
cs.AI
Abstract
Sebbene i grandi modelli linguistici (LLM) abbiano compiuto progressi impressionanti, la loro applicazione in domini scientifici come la chimica rimane ostacolata da una comprensione superficiale del dominio e da capacità di ragionamento limitate. In questo lavoro, ci concentriamo sul campo specifico della chimica e sviluppiamo un LLM per il ragionamento chimico, ChemDFM-R. In primo luogo, costruiamo un dataset completo di punti di conoscenza atomizzati per migliorare la comprensione del modello dei principi fondamentali e della struttura logica della chimica. Successivamente, proponiamo una strategia di distillazione a fonti miste che integra conoscenze curate da esperti con abilità di ragionamento di dominio generale, seguita da un apprendimento per rinforzo specifico per il dominio per potenziare il ragionamento chimico. Esperimenti su diversi benchmark chimici dimostrano che ChemDFM-R raggiunge prestazioni all'avanguardia, fornendo output interpretabili e guidati da una logica. Ulteriori casi di studio illustrano come catene di ragionamento esplicite migliorino significativamente l'affidabilità, la trasparenza e l'utilità pratica del modello in scenari reali di collaborazione uomo-IA.
English
While large language models (LLMs) have achieved impressive progress, their
application in scientific domains such as chemistry remains hindered by shallow
domain understanding and limited reasoning capabilities. In this work, we focus
on the specific field of chemistry and develop a Chemical Reasoner LLM,
ChemDFM-R. We first construct a comprehensive dataset of atomized knowledge
points to enhance the model's understanding of the fundamental principles and
logical structure of chemistry. Then, we propose a mix-sourced distillation
strategy that integrates expert-curated knowledge with general-domain reasoning
skills, followed by domain-specific reinforcement learning to enhance chemical
reasoning. Experiments on diverse chemical benchmarks demonstrate that
ChemDFM-R achieves state-of-the-art performance while providing interpretable,
rationale-driven outputs. Further case studies illustrate how explicit
reasoning chains significantly improve the reliability, transparency, and
practical utility of the model in real-world human-AI collaboration scenarios.