S1-Bench: Ein einfacher Benchmark zur Bewertung der System-1-Denkleistung großer Reasoning-Modelle

papers.abstract

Wir stellen S1-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um die Leistung von Large Reasoning Models (LRMs) bei einfachen Aufgaben zu bewerten, die intuitives System-1-Denken begünstigen, anstatt deliberatives System-2-Schließen. Während LRMs bedeutende Durchbrüche bei komplexen Denkaufgaben durch explizite Gedankenketten erzielt haben, könnte ihre Abhängigkeit von tiefgreifendem analytischem Denken ihre Fähigkeiten im System-1-Denken einschränken. Zudem existiert derzeit kein Benchmark, um die Leistung von LRMs bei Aufgaben zu bewerten, die solche Fähigkeiten erfordern. Um diese Lücke zu schließen, präsentiert S1-Bench eine Reihe von einfachen, vielfältigen und natürlich klaren Fragen aus verschiedenen Domänen und Sprachen, die speziell dazu entwickelt wurden, die Leistung von LRMs in solchen Aufgaben zu bewerten. Unsere umfassende Auswertung von 22 LRMs zeigt signifikant niedrigere Effizienztendenzen, wobei die Ausgaben im Durchschnitt 15,5-mal länger sind als die traditioneller kleinerer LLMs. Darüber hinaus identifizieren LRMs oft korrekte Antworten frühzeitig, setzen jedoch unnötige Überlegungen fort, wobei einige Modelle sogar zahlreiche Fehler produzieren. Diese Ergebnisse verdeutlichen die starren Denkmuster aktueller LRMs und unterstreichen den erheblichen Entwicklungsbedarf, um ausgewogene Dual-System-Denkfähigkeiten zu erreichen, die sich angemessen an die Aufgabenkomplexität anpassen können.

English

We introduce S1-Bench, a novel benchmark designed to evaluate Large Reasoning Models' (LRMs) performance on simple tasks that favor intuitive system 1 thinking rather than deliberative system 2 reasoning. While LRMs have achieved significant breakthroughs in complex reasoning tasks through explicit chains of thought, their reliance on deep analytical thinking may limit their system 1 thinking capabilities. Moreover, a lack of benchmark currently exists to evaluate LRMs' performance in tasks that require such capabilities. To fill this gap, S1-Bench presents a set of simple, diverse, and naturally clear questions across multiple domains and languages, specifically designed to assess LRMs' performance in such tasks. Our comprehensive evaluation of 22 LRMs reveals significant lower efficiency tendencies, with outputs averaging 15.5 times longer than those of traditional small LLMs. Additionally, LRMs often identify correct answers early but continue unnecessary deliberation, with some models even producing numerous errors. These findings highlight the rigid reasoning patterns of current LRMs and underscore the substantial development needed to achieve balanced dual-system thinking capabilities that can adapt appropriately to task complexity.

S1-Bench: Ein einfacher Benchmark zur Bewertung der System-1-Denkleistung großer Reasoning-Modelle

S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

papers.abstract

Support