S1-Bench : Un benchmark simple pour évaluer la capacité de pensée de type Système 1 des modèles de raisonnement à grande échelle
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models
April 14, 2025
Auteurs: Wenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, Zefeng Zhang, Tingwen Liu
cs.AI
Résumé
Nous présentons S1-Bench, un nouveau benchmark conçu pour évaluer la performance des Modèles de Raisonnement à Grande Échelle (LRMs) sur des tâches simples favorisant la pensée intuitive de système 1 plutôt que le raisonnement délibératif de système 2. Bien que les LRMs aient réalisé des avancées significatives dans des tâches de raisonnement complexe grâce à des chaînes de pensée explicites, leur dépendance à une pensée analytique profonde pourrait limiter leurs capacités de pensée de système 1. De plus, il manque actuellement un benchmark pour évaluer la performance des LRMs dans des tâches nécessitant de telles capacités. Pour combler cette lacune, S1-Bench propose un ensemble de questions simples, diversifiées et naturellement claires, couvrant plusieurs domaines et langues, spécifiquement conçues pour évaluer la performance des LRMs dans ces tâches. Notre évaluation approfondie de 22 LRMs révèle des tendances significativement moins efficaces, avec des sorties en moyenne 15,5 fois plus longues que celles des petits LLMs traditionnels. De plus, les LRMs identifient souvent les bonnes réponses tôt mais poursuivent une délibération inutile, certains modèles produisant même de nombreuses erreurs. Ces résultats mettent en lumière les schémas de raisonnement rigides des LRMs actuels et soulignent le développement substantiel nécessaire pour atteindre des capacités de pensée à double système équilibrées, capables de s'adapter de manière appropriée à la complexité des tâches.
English
We introduce S1-Bench, a novel benchmark designed to evaluate Large Reasoning
Models' (LRMs) performance on simple tasks that favor intuitive system 1
thinking rather than deliberative system 2 reasoning. While LRMs have achieved
significant breakthroughs in complex reasoning tasks through explicit chains of
thought, their reliance on deep analytical thinking may limit their system 1
thinking capabilities. Moreover, a lack of benchmark currently exists to
evaluate LRMs' performance in tasks that require such capabilities. To fill
this gap, S1-Bench presents a set of simple, diverse, and naturally clear
questions across multiple domains and languages, specifically designed to
assess LRMs' performance in such tasks. Our comprehensive evaluation of 22 LRMs
reveals significant lower efficiency tendencies, with outputs averaging 15.5
times longer than those of traditional small LLMs. Additionally, LRMs often
identify correct answers early but continue unnecessary deliberation, with some
models even producing numerous errors. These findings highlight the rigid
reasoning patterns of current LRMs and underscore the substantial development
needed to achieve balanced dual-system thinking capabilities that can adapt
appropriately to task complexity.