TTT-Bench : Un benchmark pour évaluer la capacité de raisonnement à travers des jeux simples et innovants de type Tic-Tac-Toe
TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games
June 11, 2025
Auteurs: Prakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum
cs.AI
Résumé
Les grands modèles de raisonnement (LRMs) ont démontré des capacités de raisonnement impressionnantes sur un large éventail de tâches, y compris des problèmes mathématiques de niveau Olympiade, indiquant des preuves de leurs capacités de raisonnement complexes. Bien que de nombreux benchmarks de raisonnement se concentrent sur le domaine STEM, la capacité des LRMs à raisonner correctement dans des domaines de tâches plus larges reste sous-explorée. Dans ce travail, nous introduisons TTT-Bench, un nouveau benchmark conçu pour évaluer les capacités de raisonnement stratégique, spatial et logique de base des LRMs à travers une suite de quatre jeux à deux joueurs de type Tic-Tac-Toe que les humains peuvent résoudre sans effort dès leur plus jeune âge. Nous proposons une approche programmatique simple mais évolutive pour générer des problèmes de jeux à deux joueurs vérifiables pour TTT-Bench. Bien que ces jeux soient triviaux pour les humains, ils nécessitent de raisonner sur les intentions de l'adversaire ainsi que sur les configurations spatiales du plateau de jeu pour assurer une victoire. Nous évaluons un ensemble diversifié de LRMs de pointe et découvrons que les modèles qui excellent dans les problèmes mathématiques difficiles échouent fréquemment sur ces jeux de raisonnement simples. Des tests supplémentaires révèlent que nos modèles de raisonnement évalués obtiennent en moyenne des scores inférieurs de 41 % et 5 % sur TTT-Bench par rapport à MATH 500 et AIME 2024 respectivement, les modèles plus grands obtenant de meilleures performances en utilisant des traces de raisonnement plus courtes, où la plupart des modèles rencontrent des difficultés dans des situations de raisonnement stratégique à long terme sur les tâches simples et nouvelles de TTT-Bench.
English
Large reasoning models (LRMs) have demonstrated impressive reasoning
capabilities across a broad range of tasks including Olympiad-level
mathematical problems, indicating evidence of their complex reasoning
abilities. While many reasoning benchmarks focus on the STEM domain, the
ability of LRMs to reason correctly in broader task domains remains
underexplored. In this work, we introduce TTT-Bench, a new benchmark
that is designed to evaluate basic strategic, spatial, and logical reasoning
abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games
that humans can effortlessly solve from a young age. We propose a simple yet
scalable programmatic approach for generating verifiable two-player game
problems for TTT-Bench. Although these games are trivial for humans, they
require reasoning about the intentions of the opponent, as well as the game
board's spatial configurations, to ensure a win. We evaluate a diverse set of
state-of-the-art LRMs, and discover that the models that excel at hard
math problems frequently fail at these simple reasoning games. Further testing
reveals that our evaluated reasoning models score on average downarrow 41\%
\& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024
respectively, with larger models achieving higher performance using shorter
reasoning traces, where most of the models struggle on long-term strategic
reasoning situations on simple and new TTT-Bench tasks.