TTT-Bench: Un Benchmark per Valutare la Capacità di Ragionamento con Giochi Semplici e Innovativi in Stile Tris
TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games
June 11, 2025
Autori: Prakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum
cs.AI
Abstract
I grandi modelli di ragionamento (LRM) hanno dimostrato capacità di ragionamento impressionanti in un'ampia gamma di compiti, inclusi problemi matematici di livello olimpico, evidenziando le loro abilità di ragionamento complesso. Mentre molti benchmark di ragionamento si concentrano sul dominio STEM, la capacità degli LRM di ragionare correttamente in domini di compiti più ampi rimane poco esplorata. In questo lavoro, introduciamo TTT-Bench, un nuovo benchmark progettato per valutare le abilità di ragionamento strategico, spaziale e logico di base negli LRM attraverso una suite di quattro giochi a due giocatori in stile Tris che gli esseri umani possono risolvere senza sforzo fin dalla giovane età. Proponiamo un approccio programmatico semplice ma scalabile per generare problemi di gioco a due giocatori verificabili per TTT-Bench. Sebbene questi giochi siano banali per gli esseri umani, richiedono di ragionare sulle intenzioni dell'avversario, nonché sulle configurazioni spaziali del tabellone di gioco, per assicurarsi la vittoria. Valutiamo un insieme diversificato di LRM all'avanguardia e scopriamo che i modelli che eccellono nei problemi matematici difficili spesso falliscono in questi semplici giochi di ragionamento. Ulteriori test rivelano che i nostri modelli di ragionamento valutati ottengono in media un punteggio inferiore del 41% e del 5% su TTT-Bench rispetto a MATH 500 e AIME 2024 rispettivamente, con modelli più grandi che raggiungono prestazioni più elevate utilizzando tracce di ragionamento più brevi, mentre la maggior parte dei modelli fatica in situazioni di ragionamento strategico a lungo termine su compiti semplici e nuovi di TTT-Bench.
English
Large reasoning models (LRMs) have demonstrated impressive reasoning
capabilities across a broad range of tasks including Olympiad-level
mathematical problems, indicating evidence of their complex reasoning
abilities. While many reasoning benchmarks focus on the STEM domain, the
ability of LRMs to reason correctly in broader task domains remains
underexplored. In this work, we introduce TTT-Bench, a new benchmark
that is designed to evaluate basic strategic, spatial, and logical reasoning
abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games
that humans can effortlessly solve from a young age. We propose a simple yet
scalable programmatic approach for generating verifiable two-player game
problems for TTT-Bench. Although these games are trivial for humans, they
require reasoning about the intentions of the opponent, as well as the game
board's spatial configurations, to ensure a win. We evaluate a diverse set of
state-of-the-art LRMs, and discover that the models that excel at hard
math problems frequently fail at these simple reasoning games. Further testing
reveals that our evaluated reasoning models score on average downarrow 41\%
\& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024
respectively, with larger models achieving higher performance using shorter
reasoning traces, where most of the models struggle on long-term strategic
reasoning situations on simple and new TTT-Bench tasks.