ChatPaper.aiChatPaper

ChemDFM-R: Химический рассуждающий языковой модель, усиленный атомизированными химическими знаниями

ChemDFM-R: An Chemical Reasoner LLM Enhanced with Atomized Chemical Knowledge

July 29, 2025
Авторы: Zihan Zhao, Bo Chen, Ziping Wan, Lu Chen, Xuanze Lin, Shiyang Yu, Situo Zhang, Da Ma, Zichen Zhu, Danyang Zhang, Huayang Wang, Zhongyang Dai, Liyang Wen, Xin Chen, Kai Yu
cs.AI

Аннотация

Хотя крупные языковые модели (LLM) достигли значительных успехов, их применение в научных областях, таких как химия, по-прежнему ограничено поверхностным пониманием предметной области и ограниченными способностями к рассуждению. В данной работе мы сосредоточиваемся на конкретной области химии и разрабатываем специализированную языковую модель для химического рассуждения, ChemDFM-R. Сначала мы создаем всеобъемлющий набор данных, состоящий из атомизированных элементов знаний, чтобы улучшить понимание моделью фундаментальных принципов и логической структуры химии. Затем мы предлагаем стратегию смешанного дистилляции, которая объединяет экспертно отобранные знания с навыками рассуждения из общей области, после чего применяем специализированное обучение с подкреплением для улучшения химического рассуждения. Эксперименты на различных химических тестах демонстрируют, что ChemDFM-R достигает наилучших результатов, предоставляя интерпретируемые выводы, основанные на логических обоснованиях. Дополнительные кейс-стадии показывают, как явные цепочки рассуждений значительно повышают надежность, прозрачность и практическую полезность модели в реальных сценариях взаимодействия человека и ИИ.
English
While large language models (LLMs) have achieved impressive progress, their application in scientific domains such as chemistry remains hindered by shallow domain understanding and limited reasoning capabilities. In this work, we focus on the specific field of chemistry and develop a Chemical Reasoner LLM, ChemDFM-R. We first construct a comprehensive dataset of atomized knowledge points to enhance the model's understanding of the fundamental principles and logical structure of chemistry. Then, we propose a mix-sourced distillation strategy that integrates expert-curated knowledge with general-domain reasoning skills, followed by domain-specific reinforcement learning to enhance chemical reasoning. Experiments on diverse chemical benchmarks demonstrate that ChemDFM-R achieves state-of-the-art performance while providing interpretable, rationale-driven outputs. Further case studies illustrate how explicit reasoning chains significantly improve the reliability, transparency, and practical utility of the model in real-world human-AI collaboration scenarios.
PDF232July 30, 2025