S1-Bench: Ein einfacher Benchmark zur Bewertung der System-1-Denkleistung großer Reasoning-Modelle
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models
April 14, 2025
Autoren: Wenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, Zefeng Zhang, Tingwen Liu
cs.AI
Zusammenfassung
Wir stellen S1-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um die Leistung von Large Reasoning Models (LRMs) bei einfachen Aufgaben zu bewerten, die intuitives System-1-Denken begünstigen, anstatt deliberatives System-2-Schließen. Während LRMs bedeutende Durchbrüche bei komplexen Denkaufgaben durch explizite Gedankenketten erzielt haben, könnte ihre Abhängigkeit von tiefgreifendem analytischem Denken ihre Fähigkeiten im System-1-Denken einschränken. Zudem existiert derzeit kein Benchmark, um die Leistung von LRMs bei Aufgaben zu bewerten, die solche Fähigkeiten erfordern. Um diese Lücke zu schließen, präsentiert S1-Bench eine Reihe von einfachen, vielfältigen und natürlich klaren Fragen aus verschiedenen Domänen und Sprachen, die speziell dazu entwickelt wurden, die Leistung von LRMs in solchen Aufgaben zu bewerten. Unsere umfassende Auswertung von 22 LRMs zeigt signifikant niedrigere Effizienztendenzen, wobei die Ausgaben im Durchschnitt 15,5-mal länger sind als die traditioneller kleinerer LLMs. Darüber hinaus identifizieren LRMs oft korrekte Antworten frühzeitig, setzen jedoch unnötige Überlegungen fort, wobei einige Modelle sogar zahlreiche Fehler produzieren. Diese Ergebnisse verdeutlichen die starren Denkmuster aktueller LRMs und unterstreichen den erheblichen Entwicklungsbedarf, um ausgewogene Dual-System-Denkfähigkeiten zu erreichen, die sich angemessen an die Aufgabenkomplexität anpassen können.
English
We introduce S1-Bench, a novel benchmark designed to evaluate Large Reasoning
Models' (LRMs) performance on simple tasks that favor intuitive system 1
thinking rather than deliberative system 2 reasoning. While LRMs have achieved
significant breakthroughs in complex reasoning tasks through explicit chains of
thought, their reliance on deep analytical thinking may limit their system 1
thinking capabilities. Moreover, a lack of benchmark currently exists to
evaluate LRMs' performance in tasks that require such capabilities. To fill
this gap, S1-Bench presents a set of simple, diverse, and naturally clear
questions across multiple domains and languages, specifically designed to
assess LRMs' performance in such tasks. Our comprehensive evaluation of 22 LRMs
reveals significant lower efficiency tendencies, with outputs averaging 15.5
times longer than those of traditional small LLMs. Additionally, LRMs often
identify correct answers early but continue unnecessary deliberation, with some
models even producing numerous errors. These findings highlight the rigid
reasoning patterns of current LRMs and underscore the substantial development
needed to achieve balanced dual-system thinking capabilities that can adapt
appropriately to task complexity.Summary
AI-Generated Summary