TTT-Bench: Un punto de referencia para evaluar la capacidad de razonamiento con juegos simples y novedosos al estilo Tres en Raya
TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games
June 11, 2025
Autores: Prakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum
cs.AI
Resumen
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) han demostrado capacidades de razonamiento impresionantes en una amplia gama de tareas, incluyendo problemas matemáticos de nivel olímpico, lo que indica evidencia de sus habilidades de razonamiento complejo. Si bien muchos benchmarks de razonamiento se centran en el dominio STEM, la capacidad de los LRMs para razonar correctamente en dominios de tareas más amplios sigue siendo poco explorada. En este trabajo, presentamos TTT-Bench, un nuevo benchmark diseñado para evaluar habilidades básicas de razonamiento estratégico, espacial y lógico en LRMs a través de un conjunto de cuatro juegos de dos jugadores al estilo Tic-Tac-Toe que los humanos pueden resolver sin esfuerzo desde una edad temprana. Proponemos un enfoque programático simple pero escalable para generar problemas verificables de juegos de dos jugadores para TTT-Bench. Aunque estos juegos son triviales para los humanos, requieren razonar sobre las intenciones del oponente, así como sobre las configuraciones espaciales del tablero, para asegurar una victoria. Evaluamos un conjunto diverso de LRMs de última generación y descubrimos que los modelos que sobresalen en problemas matemáticos difíciles a menudo fallan en estos juegos de razonamiento simples. Pruebas adicionales revelan que nuestros modelos de razonamiento evaluados obtienen en promedio un 41\% y un 5\% menos en TTT-Bench en comparación con MATH 500 y AIME 2024, respectivamente, con modelos más grandes logrando un mayor rendimiento utilizando trazas de razonamiento más cortas, donde la mayoría de los modelos tienen dificultades en situaciones de razonamiento estratégico a largo plazo en tareas simples y nuevas de TTT-Bench.
English
Large reasoning models (LRMs) have demonstrated impressive reasoning
capabilities across a broad range of tasks including Olympiad-level
mathematical problems, indicating evidence of their complex reasoning
abilities. While many reasoning benchmarks focus on the STEM domain, the
ability of LRMs to reason correctly in broader task domains remains
underexplored. In this work, we introduce TTT-Bench, a new benchmark
that is designed to evaluate basic strategic, spatial, and logical reasoning
abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games
that humans can effortlessly solve from a young age. We propose a simple yet
scalable programmatic approach for generating verifiable two-player game
problems for TTT-Bench. Although these games are trivial for humans, they
require reasoning about the intentions of the opponent, as well as the game
board's spatial configurations, to ensure a win. We evaluate a diverse set of
state-of-the-art LRMs, and discover that the models that excel at hard
math problems frequently fail at these simple reasoning games. Further testing
reveals that our evaluated reasoning models score on average downarrow 41\%
\& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024
respectively, with larger models achieving higher performance using shorter
reasoning traces, where most of the models struggle on long-term strategic
reasoning situations on simple and new TTT-Bench tasks.