ChatPaper.aiChatPaper

TTT-Bench: Een Benchmark voor het Evalueren van Redeneervermogen met Eenvoudige en Nieuwe Tic-Tac-Toe-achtige Spelen

TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games

June 11, 2025
Auteurs: Prakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum
cs.AI

Samenvatting

Grote redeneermodellen (LRMs) hebben indrukwekkende redeneervaardigheden getoond over een breed scala aan taken, waaronder wiskundige problemen op Olympiadeniveau, wat wijst op bewijs van hun complexe redeneervermogen. Hoewel veel redeneerbenchmarks zich richten op het STEM-domein, blijft het vermogen van LRMs om correct te redeneren in bredere taakdomeinen onderbelicht. In dit werk introduceren we TTT-Bench, een nieuwe benchmark die is ontworpen om basisstrategische, ruimtelijke en logische redeneervaardigheden in LRMs te evalueren via een reeks van vier tweespelers Tic-Tac-Toe-achtige spellen die mensen moeiteloos kunnen oplossen vanaf jonge leeftijd. We stellen een eenvoudige maar schaalbare programmatische aanpak voor voor het genereren van verifieerbare tweespelers spelproblemen voor TTT-Bench. Hoewel deze spellen triviaal zijn voor mensen, vereisen ze redeneren over de intenties van de tegenstander, evenals de ruimtelijke configuraties van het spelbord, om een overwinning te garanderen. We evalueren een diverse set van state-of-the-art LRMs, en ontdekken dat de modellen die uitblinken in moeilijke wiskundeproblemen vaak falen in deze eenvoudige redeneerspellen. Verdere tests onthullen dat onze geëvalueerde redeneermodellen gemiddeld downarrow 41\% \& downarrow 5\% lager scoren op TTT-Bench vergeleken met MATH 500 \& AIME 2024 respectievelijk, waarbij grotere modellen hogere prestaties behalen met kortere redeneersporen, waar de meeste modellen worstelen met langetermijnstrategische redeneersituaties in eenvoudige en nieuwe TTT-Bench-taken.
English
Large reasoning models (LRMs) have demonstrated impressive reasoning capabilities across a broad range of tasks including Olympiad-level mathematical problems, indicating evidence of their complex reasoning abilities. While many reasoning benchmarks focus on the STEM domain, the ability of LRMs to reason correctly in broader task domains remains underexplored. In this work, we introduce TTT-Bench, a new benchmark that is designed to evaluate basic strategic, spatial, and logical reasoning abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games that humans can effortlessly solve from a young age. We propose a simple yet scalable programmatic approach for generating verifiable two-player game problems for TTT-Bench. Although these games are trivial for humans, they require reasoning about the intentions of the opponent, as well as the game board's spatial configurations, to ensure a win. We evaluate a diverse set of state-of-the-art LRMs, and discover that the models that excel at hard math problems frequently fail at these simple reasoning games. Further testing reveals that our evaluated reasoning models score on average downarrow 41\% \& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024 respectively, with larger models achieving higher performance using shorter reasoning traces, where most of the models struggle on long-term strategic reasoning situations on simple and new TTT-Bench tasks.
PDF02June 13, 2025