S1-Bench : Un benchmark simple pour évaluer la capacité de pensée de type Système 1 des modèles de raisonnement à grande échelle

papers.abstract

Nous présentons S1-Bench, un nouveau benchmark conçu pour évaluer la performance des Modèles de Raisonnement à Grande Échelle (LRMs) sur des tâches simples favorisant la pensée intuitive de système 1 plutôt que le raisonnement délibératif de système 2. Bien que les LRMs aient réalisé des avancées significatives dans des tâches de raisonnement complexe grâce à des chaînes de pensée explicites, leur dépendance à une pensée analytique profonde pourrait limiter leurs capacités de pensée de système 1. De plus, il manque actuellement un benchmark pour évaluer la performance des LRMs dans des tâches nécessitant de telles capacités. Pour combler cette lacune, S1-Bench propose un ensemble de questions simples, diversifiées et naturellement claires, couvrant plusieurs domaines et langues, spécifiquement conçues pour évaluer la performance des LRMs dans ces tâches. Notre évaluation approfondie de 22 LRMs révèle des tendances significativement moins efficaces, avec des sorties en moyenne 15,5 fois plus longues que celles des petits LLMs traditionnels. De plus, les LRMs identifient souvent les bonnes réponses tôt mais poursuivent une délibération inutile, certains modèles produisant même de nombreuses erreurs. Ces résultats mettent en lumière les schémas de raisonnement rigides des LRMs actuels et soulignent le développement substantiel nécessaire pour atteindre des capacités de pensée à double système équilibrées, capables de s'adapter de manière appropriée à la complexité des tâches.

English

We introduce S1-Bench, a novel benchmark designed to evaluate Large Reasoning Models' (LRMs) performance on simple tasks that favor intuitive system 1 thinking rather than deliberative system 2 reasoning. While LRMs have achieved significant breakthroughs in complex reasoning tasks through explicit chains of thought, their reliance on deep analytical thinking may limit their system 1 thinking capabilities. Moreover, a lack of benchmark currently exists to evaluate LRMs' performance in tasks that require such capabilities. To fill this gap, S1-Bench presents a set of simple, diverse, and naturally clear questions across multiple domains and languages, specifically designed to assess LRMs' performance in such tasks. Our comprehensive evaluation of 22 LRMs reveals significant lower efficiency tendencies, with outputs averaging 15.5 times longer than those of traditional small LLMs. Additionally, LRMs often identify correct answers early but continue unnecessary deliberation, with some models even producing numerous errors. These findings highlight the rigid reasoning patterns of current LRMs and underscore the substantial development needed to achieve balanced dual-system thinking capabilities that can adapt appropriately to task complexity.

S1-Bench : Un benchmark simple pour évaluer la capacité de pensée de type Système 1 des modèles de raisonnement à grande échelle

S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

papers.abstract

Support