TTT-Bench: Um Benchmark para Avaliar a Capacidade de Raciocínio com Jogos Simples e Inovadores no Estilo Jogo da Velha

Resumo

Modelos de raciocínio de grande escala (LRMs) demonstraram capacidades impressionantes de raciocínio em uma ampla gama de tarefas, incluindo problemas matemáticos de nível olímpico, indicando evidências de suas habilidades complexas de raciocínio. Embora muitos benchmarks de raciocínio se concentrem no domínio STEM, a capacidade dos LRMs de raciocinar corretamente em domínios de tarefas mais amplos permanece pouco explorada. Neste trabalho, introduzimos o TTT-Bench, um novo benchmark projetado para avaliar habilidades básicas de raciocínio estratégico, espacial e lógico em LRMs por meio de uma suíte de quatro jogos de dois jogadores no estilo Jogo da Velha que humanos podem resolver facilmente desde tenra idade. Propomos uma abordagem programática simples, mas escalável, para gerar problemas verificáveis de jogos de dois jogadores para o TTT-Bench. Embora esses jogos sejam triviais para humanos, eles exigem raciocínio sobre as intenções do oponente, bem como sobre as configurações espaciais do tabuleiro, para garantir uma vitória. Avaliamos um conjunto diversificado de LRMs state-of-the-art e descobrimos que os modelos que se destacam em problemas difíceis de matemática frequentemente falham nesses jogos simples de raciocínio. Testes adicionais revelam que os modelos de raciocínio avaliados pontuam, em média, 41% e 5% menos no TTT-Bench em comparação com o MATH 500 e o AIME 2024, respectivamente, com modelos maiores alcançando maior desempenho usando traços de raciocínio mais curtos, onde a maioria dos modelos luta em situações de raciocínio estratégico de longo prazo em tarefas simples e novas do TTT-Bench.

English

Large reasoning models (LRMs) have demonstrated impressive reasoning capabilities across a broad range of tasks including Olympiad-level mathematical problems, indicating evidence of their complex reasoning abilities. While many reasoning benchmarks focus on the STEM domain, the ability of LRMs to reason correctly in broader task domains remains underexplored. In this work, we introduce TTT-Bench, a new benchmark that is designed to evaluate basic strategic, spatial, and logical reasoning abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games that humans can effortlessly solve from a young age. We propose a simple yet scalable programmatic approach for generating verifiable two-player game problems for TTT-Bench. Although these games are trivial for humans, they require reasoning about the intentions of the opponent, as well as the game board's spatial configurations, to ensure a win. We evaluate a diverse set of state-of-the-art LRMs, and discover that the models that excel at hard math problems frequently fail at these simple reasoning games. Further testing reveals that our evaluated reasoning models score on average downarrow 41\% \& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024 respectively, with larger models achieving higher performance using shorter reasoning traces, where most of the models struggle on long-term strategic reasoning situations on simple and new TTT-Bench tasks.

TTT-Bench: Um Benchmark para Avaliar a Capacidade de Raciocínio com Jogos Simples e Inovadores no Estilo Jogo da Velha

TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games

Resumo

Support