TTT-Bench: Um Benchmark para Avaliar a Capacidade de Raciocínio com Jogos Simples e Inovadores no Estilo Jogo da Velha
TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games
June 11, 2025
Autores: Prakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum
cs.AI
Resumo
Modelos de raciocínio de grande escala (LRMs) demonstraram capacidades impressionantes de raciocínio em uma ampla gama de tarefas, incluindo problemas matemáticos de nível olímpico, indicando evidências de suas habilidades complexas de raciocínio. Embora muitos benchmarks de raciocínio se concentrem no domínio STEM, a capacidade dos LRMs de raciocinar corretamente em domínios de tarefas mais amplos permanece pouco explorada. Neste trabalho, introduzimos o TTT-Bench, um novo benchmark projetado para avaliar habilidades básicas de raciocínio estratégico, espacial e lógico em LRMs por meio de uma suíte de quatro jogos de dois jogadores no estilo Jogo da Velha que humanos podem resolver facilmente desde tenra idade. Propomos uma abordagem programática simples, mas escalável, para gerar problemas verificáveis de jogos de dois jogadores para o TTT-Bench. Embora esses jogos sejam triviais para humanos, eles exigem raciocínio sobre as intenções do oponente, bem como sobre as configurações espaciais do tabuleiro, para garantir uma vitória. Avaliamos um conjunto diversificado de LRMs state-of-the-art e descobrimos que os modelos que se destacam em problemas difíceis de matemática frequentemente falham nesses jogos simples de raciocínio. Testes adicionais revelam que os modelos de raciocínio avaliados pontuam, em média, 41% e 5% menos no TTT-Bench em comparação com o MATH 500 e o AIME 2024, respectivamente, com modelos maiores alcançando maior desempenho usando traços de raciocínio mais curtos, onde a maioria dos modelos luta em situações de raciocínio estratégico de longo prazo em tarefas simples e novas do TTT-Bench.
English
Large reasoning models (LRMs) have demonstrated impressive reasoning
capabilities across a broad range of tasks including Olympiad-level
mathematical problems, indicating evidence of their complex reasoning
abilities. While many reasoning benchmarks focus on the STEM domain, the
ability of LRMs to reason correctly in broader task domains remains
underexplored. In this work, we introduce TTT-Bench, a new benchmark
that is designed to evaluate basic strategic, spatial, and logical reasoning
abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games
that humans can effortlessly solve from a young age. We propose a simple yet
scalable programmatic approach for generating verifiable two-player game
problems for TTT-Bench. Although these games are trivial for humans, they
require reasoning about the intentions of the opponent, as well as the game
board's spatial configurations, to ensure a win. We evaluate a diverse set of
state-of-the-art LRMs, and discover that the models that excel at hard
math problems frequently fail at these simple reasoning games. Further testing
reveals that our evaluated reasoning models score on average downarrow 41\%
\& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024
respectively, with larger models achieving higher performance using shorter
reasoning traces, where most of the models struggle on long-term strategic
reasoning situations on simple and new TTT-Bench tasks.