TTT-Bench: Бенчмарк для оценки способности к рассуждению с использованием простых и новых игр в стиле крестиков-ноликов
TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games
June 11, 2025
Авторы: Prakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum
cs.AI
Аннотация
Крупные модели рассуждений (LRMs) продемонстрировали впечатляющие способности к рассуждениям в широком спектре задач, включая олимпиадные математические задачи, что свидетельствует о их сложных навыках рассуждения. Хотя многие тесты на рассуждения сосредоточены на STEM-областях, способность LRMs корректно рассуждать в более широких задачах остается недостаточно изученной. В данной работе мы представляем TTT-Bench — новый тест, предназначенный для оценки базовых стратегических, пространственных и логических способностей к рассуждению у LRMs с помощью набора из четырех игр в стиле "Крестики-нолики" для двух игроков, которые люди с легкостью решают с раннего возраста. Мы предлагаем простой, но масштабируемый программный подход для генерации проверяемых задач для двух игроков в TTT-Bench. Хотя эти игры тривиальны для людей, они требуют рассуждений о намерениях противника, а также о пространственной конфигурации игрового поля, чтобы обеспечить победу. Мы оцениваем разнообразный набор современных LRMs и обнаруживаем, что модели, которые преуспевают в сложных математических задачах, часто терпят неудачу в этих простых играх на рассуждения. Дальнейшие тесты показывают, что наши оцениваемые модели рассуждений в среднем показывают на 41% и 5% худшие результаты на TTT-Bench по сравнению с MATH 500 и AIME 2024 соответственно, причем более крупные модели достигают более высокой производительности, используя более короткие цепочки рассуждений, тогда как большинство моделей испытывают трудности в ситуациях долгосрочного стратегического рассуждения на простых и новых задачах TTT-Bench.
English
Large reasoning models (LRMs) have demonstrated impressive reasoning
capabilities across a broad range of tasks including Olympiad-level
mathematical problems, indicating evidence of their complex reasoning
abilities. While many reasoning benchmarks focus on the STEM domain, the
ability of LRMs to reason correctly in broader task domains remains
underexplored. In this work, we introduce TTT-Bench, a new benchmark
that is designed to evaluate basic strategic, spatial, and logical reasoning
abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games
that humans can effortlessly solve from a young age. We propose a simple yet
scalable programmatic approach for generating verifiable two-player game
problems for TTT-Bench. Although these games are trivial for humans, they
require reasoning about the intentions of the opponent, as well as the game
board's spatial configurations, to ensure a win. We evaluate a diverse set of
state-of-the-art LRMs, and discover that the models that excel at hard
math problems frequently fail at these simple reasoning games. Further testing
reveals that our evaluated reasoning models score on average downarrow 41\%
\& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024
respectively, with larger models achieving higher performance using shorter
reasoning traces, where most of the models struggle on long-term strategic
reasoning situations on simple and new TTT-Bench tasks.