ChatPaper.aiChatPaper

Chem-R: 화학자처럼 사고하는 법 학습하기

Chem-R: Learning to Reason as a Chemist

October 19, 2025
저자: Weida Wang, Benteng Chen, Di Zhang, Wanhao Liu, Shuchen Pu, Ben Gao, Jin Zeng, Lei Bai, Wanli Ouyang, Xiaoyong Wei, Tianshu Yu, Tianfan Fu, Shuzhou Sun, Jiatong Li, Zifu Wang, Yuqiang Li, Shufei Zhang
cs.AI

초록

대규모 언어 모델(LLMs)이 화학 발견을 크게 진전시킬 잠재력을 가지고 있음에도 불구하고, 현재의 LLMs는 핵심 화학 지식이 부족하고, 신뢰할 수 없는 추론 경로를 생성하며, 다양한 화학 작업에서 최적의 성능을 보이지 못하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 화학자들의 숙고 과정을 모방하도록 설계된 일반화 가능한 화학 추론 모델인 Chem-R을 제안합니다. Chem-R은 세 단계의 프레임워크를 통해 훈련되며, 이는 점진적으로 고급 추론 능력을 구축합니다: 1) 핵심 화학 지식을 확립하는 화학 기초 훈련, 2) 체계적이고 신뢰할 수 있는 문제 해결을 안내하기 위해 구조화된 전문가 수준의 추론 흔적을 통합한 화학 추론 프로토콜 정제, 3) 다양한 분자 및 반응 수준 작업에서 균형 잡힌 성능을 위해 모델을 최적화하는 다중 작업 그룹 상대 정책 최적화. 이 구조화된 파이프라인은 Chem-R이 포괄적인 벤치마크에서 최첨단 성능을 달성하도록 하며, 분자 작업에서 최대 46%, 반응 작업에서 최대 66%까지 Gemini-2.5-Pro 및 DeepSeek-R1을 포함한 주요 대규모 언어 모델을 능가합니다. 동시에, Chem-R은 분자 및 반응 수준 작업 모두에서 기존의 화학 기초 모델을 꾸준히 능가합니다. 이러한 결과는 Chem-R의 강력한 일반화 능력, 해석 가능성, 그리고 차세대 AI 기반 화학 발견을 위한 기초로서의 잠재력을 강조합니다.
English
Although large language models (LLMs) have significant potential to advance chemical discovery, current LLMs lack core chemical knowledge, produce unreliable reasoning trajectories, and exhibit suboptimal performance across diverse chemical tasks. To address these challenges, we propose Chem-R, a generalizable Chemical Reasoning model designed to emulate the deliberative processes of chemists. Chem-R is trained through a three-phase framework that progressively builds advanced reasoning capabilities, including: 1) Chemical Foundation Training, which establishes core chemical knowledge. 2) Chemical Reasoning Protocol Distillation, incorporating structured, expert-like reasoning traces to guide systematic and reliable problem solving. 3) Multi-task Group Relative Policy Optimization that optimizes the model for balanced performance across diverse molecular- and reaction-level tasks. This structured pipeline enables Chem-R to achieve state-of-the-art performance on comprehensive benchmarks, surpassing leading large language models, including Gemini-2.5-Pro and DeepSeek-R1, by up to 46% on molecular tasks and 66% on reaction tasks. Meanwhile, Chem-R also consistently outperforms the existing chemical foundation models across both molecular and reaction level tasks. These results highlight Chem-R's robust generalization, interpretability, and potential as a foundation for next-generation AI-driven chemical discovery.
PDF503October 22, 2025