S1-Bench: 대규모 추론 모델의 시스템 1 사고 능력 평가를 위한 간단한 벤치마크
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models
April 14, 2025
저자: Wenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, Zefeng Zhang, Tingwen Liu
cs.AI
초록
우리는 직관적인 시스템 1 사고를 요구하는 간단한 과제에서 대규모 추론 모델(Large Reasoning Models, LRMs)의 성능을 평가하기 위해 설계된 새로운 벤치마크인 S1-Bench를 소개한다. LRMs는 명시적인 사고의 연쇄를 통해 복잡한 추론 과제에서 상당한 성과를 거두었지만, 깊이 있는 분석적 사고에 대한 의존도가 시스템 1 사고 능력을 제한할 수 있다. 또한, 이러한 능력을 요구하는 과제에서 LRMs의 성능을 평가하기 위한 벤치마크가 현재 부재하다. 이러한 공백을 메우기 위해 S1-Bench는 다양한 도메인과 언어에 걸쳐 간단하고 자연스럽게 명확한 질문 세트를 제시하며, 이러한 과제에서 LRMs의 성능을 평가하도록 특별히 설계되었다. 22개의 LRMs에 대한 포괄적인 평가 결과, 전통적인 소형 LLMs(Large Language Models)에 비해 출력이 평균 15.5배 더 길어지는 등 상당히 낮은 효율성 경향이 나타났다. 또한, LRMs는 종종 정답을 초기에 파악하지만 불필요한 고민을 계속하며, 일부 모델은 수많은 오류를 생성하기도 한다. 이러한 발견은 현재 LRMs의 경직된 추론 패턴을 강조하며, 과제의 복잡성에 적절히 적응할 수 있는 균형 잡힌 이중 시스템 사고 능력을 달성하기 위해 필요한 상당한 발전의 필요성을 부각시킨다.
English
We introduce S1-Bench, a novel benchmark designed to evaluate Large Reasoning
Models' (LRMs) performance on simple tasks that favor intuitive system 1
thinking rather than deliberative system 2 reasoning. While LRMs have achieved
significant breakthroughs in complex reasoning tasks through explicit chains of
thought, their reliance on deep analytical thinking may limit their system 1
thinking capabilities. Moreover, a lack of benchmark currently exists to
evaluate LRMs' performance in tasks that require such capabilities. To fill
this gap, S1-Bench presents a set of simple, diverse, and naturally clear
questions across multiple domains and languages, specifically designed to
assess LRMs' performance in such tasks. Our comprehensive evaluation of 22 LRMs
reveals significant lower efficiency tendencies, with outputs averaging 15.5
times longer than those of traditional small LLMs. Additionally, LRMs often
identify correct answers early but continue unnecessary deliberation, with some
models even producing numerous errors. These findings highlight the rigid
reasoning patterns of current LRMs and underscore the substantial development
needed to achieve balanced dual-system thinking capabilities that can adapt
appropriately to task complexity.Summary
AI-Generated Summary