ChatPaper.aiChatPaper

TTT-Bench: 단순하고 새로운 틱택토 스타일 게임을 통한 추론 능력 평가를 위한 벤치마크

TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games

June 11, 2025
저자: Prakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum
cs.AI

초록

대규모 추론 모델(LRMs)은 올림피아드 수준의 수학 문제를 포함한 다양한 과제에서 인상적인 추론 능력을 보여주며, 복잡한 추론 능력의 증거를 나타냈습니다. 많은 추론 벤치마크가 STEM 분야에 초점을 맞추고 있지만, LRMs이 더 넓은 과제 영역에서 올바르게 추론하는 능력은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 TTT-Bench라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 두 명의 플레이어가 참여하는 틱택토 스타일의 네 가지 게임을 통해 LRMs의 기본적인 전략적, 공간적, 논리적 추론 능력을 평가하도록 설계되었습니다. 인간은 어린 나이부터 이러한 게임을 쉽게 해결할 수 있지만, 이 게임들은 상대방의 의도를 추론하고 게임 보드의 공간적 구성을 이해하여 승리를 보장해야 합니다. 우리는 검증 가능한 두 명의 플레이어 게임 문제를 생성하기 위한 간단하면서도 확장 가능한 프로그래밍 방식을 제안합니다. 다양한 최신 LRMs을 평가한 결과, 어려운 수학 문제에서 뛰어난 성능을 보이는 모델들이 이러한 간단한 추론 게임에서는 종종 실패하는 것을 발견했습니다. 추가 테스트 결과, 평가된 추론 모델들은 TTT-Bench에서 MATH 500 및 AIME 2024에 비해 각각 평균 41% 및 5% 낮은 점수를 기록했으며, 더 큰 모델들이 더 짧은 추론 흔적을 사용하여 더 높은 성능을 달성하는 반면, 대부분의 모델들은 간단하고 새로운 TTT-Bench 과제에서 장기적인 전략적 추론 상황에서 어려움을 겪는 것으로 나타났습니다.
English
Large reasoning models (LRMs) have demonstrated impressive reasoning capabilities across a broad range of tasks including Olympiad-level mathematical problems, indicating evidence of their complex reasoning abilities. While many reasoning benchmarks focus on the STEM domain, the ability of LRMs to reason correctly in broader task domains remains underexplored. In this work, we introduce TTT-Bench, a new benchmark that is designed to evaluate basic strategic, spatial, and logical reasoning abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games that humans can effortlessly solve from a young age. We propose a simple yet scalable programmatic approach for generating verifiable two-player game problems for TTT-Bench. Although these games are trivial for humans, they require reasoning about the intentions of the opponent, as well as the game board's spatial configurations, to ensure a win. We evaluate a diverse set of state-of-the-art LRMs, and discover that the models that excel at hard math problems frequently fail at these simple reasoning games. Further testing reveals that our evaluated reasoning models score on average downarrow 41\% \& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024 respectively, with larger models achieving higher performance using shorter reasoning traces, where most of the models struggle on long-term strategic reasoning situations on simple and new TTT-Bench tasks.
PDF02June 13, 2025