TTT-Bench: Un Benchmark per Valutare la Capacità di Ragionamento con Giochi Semplici e Innovativi in Stile Tris

Abstract

I grandi modelli di ragionamento (LRM) hanno dimostrato capacità di ragionamento impressionanti in un'ampia gamma di compiti, inclusi problemi matematici di livello olimpico, evidenziando le loro abilità di ragionamento complesso. Mentre molti benchmark di ragionamento si concentrano sul dominio STEM, la capacità degli LRM di ragionare correttamente in domini di compiti più ampi rimane poco esplorata. In questo lavoro, introduciamo TTT-Bench, un nuovo benchmark progettato per valutare le abilità di ragionamento strategico, spaziale e logico di base negli LRM attraverso una suite di quattro giochi a due giocatori in stile Tris che gli esseri umani possono risolvere senza sforzo fin dalla giovane età. Proponiamo un approccio programmatico semplice ma scalabile per generare problemi di gioco a due giocatori verificabili per TTT-Bench. Sebbene questi giochi siano banali per gli esseri umani, richiedono di ragionare sulle intenzioni dell'avversario, nonché sulle configurazioni spaziali del tabellone di gioco, per assicurarsi la vittoria. Valutiamo un insieme diversificato di LRM all'avanguardia e scopriamo che i modelli che eccellono nei problemi matematici difficili spesso falliscono in questi semplici giochi di ragionamento. Ulteriori test rivelano che i nostri modelli di ragionamento valutati ottengono in media un punteggio inferiore del 41% e del 5% su TTT-Bench rispetto a MATH 500 e AIME 2024 rispettivamente, con modelli più grandi che raggiungono prestazioni più elevate utilizzando tracce di ragionamento più brevi, mentre la maggior parte dei modelli fatica in situazioni di ragionamento strategico a lungo termine su compiti semplici e nuovi di TTT-Bench.

English

Large reasoning models (LRMs) have demonstrated impressive reasoning capabilities across a broad range of tasks including Olympiad-level mathematical problems, indicating evidence of their complex reasoning abilities. While many reasoning benchmarks focus on the STEM domain, the ability of LRMs to reason correctly in broader task domains remains underexplored. In this work, we introduce TTT-Bench, a new benchmark that is designed to evaluate basic strategic, spatial, and logical reasoning abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games that humans can effortlessly solve from a young age. We propose a simple yet scalable programmatic approach for generating verifiable two-player game problems for TTT-Bench. Although these games are trivial for humans, they require reasoning about the intentions of the opponent, as well as the game board's spatial configurations, to ensure a win. We evaluate a diverse set of state-of-the-art LRMs, and discover that the models that excel at hard math problems frequently fail at these simple reasoning games. Further testing reveals that our evaluated reasoning models score on average downarrow 41\% \& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024 respectively, with larger models achieving higher performance using shorter reasoning traces, where most of the models struggle on long-term strategic reasoning situations on simple and new TTT-Bench tasks.

TTT-Bench: Un Benchmark per Valutare la Capacità di Ragionamento con Giochi Semplici e Innovativi in Stile Tris

TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games

Abstract

Support