LLM의 지식과 추론 능력을 탐구함으로써 과학적 문제 해결 과정의 이해를 명료화하기
Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning
August 26, 2025
저자: Alan Li, Yixin Liu, Arpan Sarkar, Doug Downey, Arman Cohan
cs.AI
초록
과학적 문제 해결은 LLM(Large Language Models)에게 깊은 도메인 지식과 복잡한 추론을 통해 그러한 지식을 적용할 수 있는 능력을 모두 요구함으로써 독특한 도전 과제를 제시합니다. 자동화된 과학적 추론 시스템은 인간 과학자들을 지원하는 데 큰 잠재력을 지니고 있지만, 현재로서는 과학적 추론을 평가하기 위해 널리 채택된 종합적인 벤치마크가 없으며, 이러한 작업에서 지식과 추론의 구별된 역할을 체계적으로 분리하는 접근법도 거의 없습니다. 이러한 격차를 해결하기 위해, 우리는 과학적 추론 작업을 위한 다양한 기존 벤치마크 모음인 SciReas와 더 복잡한 추론을 요구하는 선택적 하위 집합인 SciReas-Pro를 소개합니다. 우리의 종합적인 평가는 개별 벤치마크에만 의존할 때 숨겨져 있던 과학적 추론 성능에 대한 통찰을 드러냅니다. 그런 다음, 우리는 과학적 작업에서 추론과 지식의 구별된 역할을 연구하기 위한 프로빙 프레임워크인 KRUX를 제안합니다. 이 두 가지를 결합하여, 우리는 몇 가지 주요 발견을 도출하는 심층 분석을 수행합니다: (1) 모델 파라미터에서 작업 관련 지식을 검색하는 것은 LLM의 과학적 추론에서 중요한 병목 현상입니다; (2) 추론 모델은 추론 강화 외에도 컨텍스트에 추가된 외부 지식으로부터 지속적으로 이익을 얻습니다; (3) 언어화된 추론을 강화하면 LLM이 작업 관련 지식을 표면화하는 능력이 향상됩니다. 마지막으로, 우리는 과학 중심 데이터 구성을 장기 CoT SFT(Chain-of-Thought Supervised Fine-Tuning)와 비교하는 경량 분석을 수행하고, 과학적 추론을 위한 강력한 8B 베이스라인인 SciLit01을 공개합니다.
English
Scientific problem solving poses unique challenges for LLMs, requiring both
deep domain knowledge and the ability to apply such knowledge through complex
reasoning. While automated scientific reasoners hold great promise for
assisting human scientists, there is currently no widely adopted holistic
benchmark for evaluating scientific reasoning, and few approaches
systematically disentangle the distinct roles of knowledge and reasoning in
these tasks. To address these gaps, we introduce SciReas, a diverse suite of
existing benchmarks for scientific reasoning tasks, and SciReas-Pro, a
selective subset that requires more complex reasoning. Our holistic evaluation
surfaces insights about scientific reasoning performance that remain hidden
when relying on individual benchmarks alone. We then propose KRUX, a probing
framework for studying the distinct roles of reasoning and knowledge in
scientific tasks. Combining the two, we conduct an in-depth analysis that
yields several key findings: (1) Retrieving task-relevant knowledge from model
parameters is a critical bottleneck for LLMs in scientific reasoning; (2)
Reasoning models consistently benefit from external knowledge added in-context
on top of the reasoning enhancement; (3) Enhancing verbalized reasoning
improves LLMs' ability to surface task-relevant knowledge. Finally, we conduct
a lightweight analysis, comparing our science-focused data composition with
concurrent efforts on long CoT SFT, and release SciLit01, a strong 8B baseline
for scientific reasoning.