TTT-Bench : Un benchmark pour évaluer la capacité de raisonnement à travers des jeux simples et innovants de type Tic-Tac-Toe

papers.abstract

Les grands modèles de raisonnement (LRMs) ont démontré des capacités de raisonnement impressionnantes sur un large éventail de tâches, y compris des problèmes mathématiques de niveau Olympiade, indiquant des preuves de leurs capacités de raisonnement complexes. Bien que de nombreux benchmarks de raisonnement se concentrent sur le domaine STEM, la capacité des LRMs à raisonner correctement dans des domaines de tâches plus larges reste sous-explorée. Dans ce travail, nous introduisons TTT-Bench, un nouveau benchmark conçu pour évaluer les capacités de raisonnement stratégique, spatial et logique de base des LRMs à travers une suite de quatre jeux à deux joueurs de type Tic-Tac-Toe que les humains peuvent résoudre sans effort dès leur plus jeune âge. Nous proposons une approche programmatique simple mais évolutive pour générer des problèmes de jeux à deux joueurs vérifiables pour TTT-Bench. Bien que ces jeux soient triviaux pour les humains, ils nécessitent de raisonner sur les intentions de l'adversaire ainsi que sur les configurations spatiales du plateau de jeu pour assurer une victoire. Nous évaluons un ensemble diversifié de LRMs de pointe et découvrons que les modèles qui excellent dans les problèmes mathématiques difficiles échouent fréquemment sur ces jeux de raisonnement simples. Des tests supplémentaires révèlent que nos modèles de raisonnement évalués obtiennent en moyenne des scores inférieurs de 41 % et 5 % sur TTT-Bench par rapport à MATH 500 et AIME 2024 respectivement, les modèles plus grands obtenant de meilleures performances en utilisant des traces de raisonnement plus courtes, où la plupart des modèles rencontrent des difficultés dans des situations de raisonnement stratégique à long terme sur les tâches simples et nouvelles de TTT-Bench.

English

Large reasoning models (LRMs) have demonstrated impressive reasoning capabilities across a broad range of tasks including Olympiad-level mathematical problems, indicating evidence of their complex reasoning abilities. While many reasoning benchmarks focus on the STEM domain, the ability of LRMs to reason correctly in broader task domains remains underexplored. In this work, we introduce TTT-Bench, a new benchmark that is designed to evaluate basic strategic, spatial, and logical reasoning abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games that humans can effortlessly solve from a young age. We propose a simple yet scalable programmatic approach for generating verifiable two-player game problems for TTT-Bench. Although these games are trivial for humans, they require reasoning about the intentions of the opponent, as well as the game board's spatial configurations, to ensure a win. We evaluate a diverse set of state-of-the-art LRMs, and discover that the models that excel at hard math problems frequently fail at these simple reasoning games. Further testing reveals that our evaluated reasoning models score on average downarrow 41\% \& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024 respectively, with larger models achieving higher performance using shorter reasoning traces, where most of the models struggle on long-term strategic reasoning situations on simple and new TTT-Bench tasks.

TTT-Bench : Un benchmark pour évaluer la capacité de raisonnement à travers des jeux simples et innovants de type Tic-Tac-Toe

TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games

papers.abstract

Support