ChatPaper.aiChatPaper

ChemDFM-R: Ein chemisches Schlussfolgerungsmodell (LLM) erweitert durch atomisierte chemische Kenntnisse

ChemDFM-R: An Chemical Reasoner LLM Enhanced with Atomized Chemical Knowledge

July 29, 2025
papers.authors: Zihan Zhao, Bo Chen, Ziping Wan, Lu Chen, Xuanze Lin, Shiyang Yu, Situo Zhang, Da Ma, Zichen Zhu, Danyang Zhang, Huayang Wang, Zhongyang Dai, Liyang Wen, Xin Chen, Kai Yu
cs.AI

papers.abstract

Während große Sprachmodelle (LLMs) beeindruckende Fortschritte erzielt haben, wird ihre Anwendung in wissenschaftlichen Domänen wie der Chemie durch ein oberflächliches Domänenverständnis und begrenzte Fähigkeiten zur logischen Schlussfolgerung behindert. In dieser Arbeit konzentrieren wir uns auf das spezifische Feld der Chemie und entwickeln ein Chemical Reasoner LLM, ChemDFM-R. Zunächst erstellen wir einen umfassenden Datensatz atomisierter Wissenspunkte, um das Verständnis des Modells für die grundlegenden Prinzipien und die logische Struktur der Chemie zu verbessern. Anschließend schlagen wir eine Mix-Sourced-Distillationsstrategie vor, die von Experten kuratiertes Wissen mit allgemeinen Fähigkeiten zur logischen Schlussfolgerung kombiniert, gefolgt von domänenspezifischem Reinforcement Learning, um das chemische Denken zu stärken. Experimente mit verschiedenen chemischen Benchmarks zeigen, dass ChemDFM-R Spitzenleistungen erzielt und gleichzeitig interpretierbare, begründungsgestützte Ergebnisse liefert. Weitere Fallstudien verdeutlichen, wie explizite Schlussfolgerungsketten die Zuverlässigkeit, Transparenz und praktische Nutzbarkeit des Modells in realen Mensch-KI-Kollaborationsszenarien signifikant verbessern.
English
While large language models (LLMs) have achieved impressive progress, their application in scientific domains such as chemistry remains hindered by shallow domain understanding and limited reasoning capabilities. In this work, we focus on the specific field of chemistry and develop a Chemical Reasoner LLM, ChemDFM-R. We first construct a comprehensive dataset of atomized knowledge points to enhance the model's understanding of the fundamental principles and logical structure of chemistry. Then, we propose a mix-sourced distillation strategy that integrates expert-curated knowledge with general-domain reasoning skills, followed by domain-specific reinforcement learning to enhance chemical reasoning. Experiments on diverse chemical benchmarks demonstrate that ChemDFM-R achieves state-of-the-art performance while providing interpretable, rationale-driven outputs. Further case studies illustrate how explicit reasoning chains significantly improve the reliability, transparency, and practical utility of the model in real-world human-AI collaboration scenarios.
PDF232July 30, 2025