ChatPaper.aiChatPaper

TTT-Bench: シンプルで新しい三目並べスタイルのゲームを用いた推論能力評価のためのベンチマーク

TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games

June 11, 2025
著者: Prakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum
cs.AI

要旨

大規模推論モデル(LRM)は、オリンピアードレベルの数学問題を含む幅広いタスクにおいて印象的な推論能力を示しており、その複雑な推論能力の証拠を示しています。多くの推論ベンチマークがSTEM領域に焦点を当てている一方で、LRMがより広範なタスク領域で正しく推論する能力はまだ十分に探求されていません。本研究では、TTT-Benchという新しいベンチマークを紹介します。このベンチマークは、4つの二人用三目並べスタイルのゲームを通じて、LRMの基本的な戦略的、空間的、論理的推論能力を評価するために設計されています。これらのゲームは人間にとって幼少期から簡単に解けるものですが、勝利を確実にするためには、相手の意図やゲームボードの空間的配置について推論する必要があります。私たちは、検証可能な二人用ゲーム問題を生成するためのシンプルでスケーラブルなプログラム的アプローチを提案します。最先端のLRMの多様なセットを評価した結果、難しい数学問題に優れたモデルがこれらの単純な推論ゲームで頻繁に失敗することがわかりました。さらにテストを行ったところ、評価された推論モデルは、TTT-BenchにおいてMATH 500およびAIME 2024と比較して平均でそれぞれ41%および5%低いスコアを示し、大規模なモデルは短い推論トレースを使用して高いパフォーマンスを達成する一方で、ほとんどのモデルが単純で新しいTTT-Benchタスクにおける長期的な戦略的推論状況に苦戦することが明らかになりました。
English
Large reasoning models (LRMs) have demonstrated impressive reasoning capabilities across a broad range of tasks including Olympiad-level mathematical problems, indicating evidence of their complex reasoning abilities. While many reasoning benchmarks focus on the STEM domain, the ability of LRMs to reason correctly in broader task domains remains underexplored. In this work, we introduce TTT-Bench, a new benchmark that is designed to evaluate basic strategic, spatial, and logical reasoning abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games that humans can effortlessly solve from a young age. We propose a simple yet scalable programmatic approach for generating verifiable two-player game problems for TTT-Bench. Although these games are trivial for humans, they require reasoning about the intentions of the opponent, as well as the game board's spatial configurations, to ensure a win. We evaluate a diverse set of state-of-the-art LRMs, and discover that the models that excel at hard math problems frequently fail at these simple reasoning games. Further testing reveals that our evaluated reasoning models score on average downarrow 41\% \& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024 respectively, with larger models achieving higher performance using shorter reasoning traces, where most of the models struggle on long-term strategic reasoning situations on simple and new TTT-Bench tasks.
PDF02June 13, 2025