TTT-Bench: Ein Benchmark zur Bewertung der Denkfähigkeit mit einfachen und neuartigen Tic-Tac-Toe-ähnlichen Spielen
TTT-Bench: A Benchmark for Evaluating Reasoning Ability with Simple and Novel Tic-Tac-Toe-style Games
June 11, 2025
Autoren: Prakamya Mishra, Jiang Liu, Jialian Wu, Xiaodong Yu, Zicheng Liu, Emad Barsoum
cs.AI
Zusammenfassung
Große Reasoning-Modelle (LRMs) haben beeindruckende Reasoning-Fähigkeiten in einer Vielzahl von Aufgaben gezeigt, einschließlich Olympiade-Level mathematischer Probleme, was Hinweise auf ihre komplexen Reasoning-Fähigkeiten liefert. Während sich viele Reasoning-Benchmarks auf den STEM-Bereich konzentrieren, bleibt die Fähigkeit von LRMs, in breiteren Aufgabenbereichen korrekt zu reasoning, weitgehend unerforscht. In dieser Arbeit stellen wir TTT-Bench vor, einen neuen Benchmark, der entwickelt wurde, um grundlegende strategische, räumliche und logische Reasoning-Fähigkeiten von LRMs durch eine Reihe von vier Zwei-Spieler-Tic-Tac-Toe-ähnlichen Spielen zu bewerten, die Menschen bereits in jungen Jahren mühelos lösen können. Wir schlagen einen einfachen, aber skalierbaren programmatischen Ansatz zur Generierung überprüfbarer Zwei-Spieler-Spielprobleme für TTT-Bench vor. Obwohl diese Spiele für Menschen trivial sind, erfordern sie ein Reasoning über die Absichten des Gegners sowie die räumlichen Konfigurationen des Spielbretts, um einen Sieg zu sichern. Wir bewerten eine Vielzahl von state-of-the-art LRMs und stellen fest, dass Modelle, die bei schwierigen Matheproblemen hervorragend abschneiden, häufig bei diesen einfachen Reasoning-Spielen versagen. Weitere Tests zeigen, dass unsere bewerteten Reasoning-Modelle im Durchschnitt ↓41\% & ↓5\% schlechter bei TTT-Bench abschneiden im Vergleich zu MATH 500 & AIME 2024, wobei größere Modelle mit kürzeren Reasoning-Traces eine höhere Leistung erzielen, während die meisten Modelle bei langfristigen strategischen Reasoning-Situationen in einfachen und neuen TTT-Bench-Aufgaben Schwierigkeiten haben.
English
Large reasoning models (LRMs) have demonstrated impressive reasoning
capabilities across a broad range of tasks including Olympiad-level
mathematical problems, indicating evidence of their complex reasoning
abilities. While many reasoning benchmarks focus on the STEM domain, the
ability of LRMs to reason correctly in broader task domains remains
underexplored. In this work, we introduce TTT-Bench, a new benchmark
that is designed to evaluate basic strategic, spatial, and logical reasoning
abilities in LRMs through a suite of four two-player Tic-Tac-Toe-style games
that humans can effortlessly solve from a young age. We propose a simple yet
scalable programmatic approach for generating verifiable two-player game
problems for TTT-Bench. Although these games are trivial for humans, they
require reasoning about the intentions of the opponent, as well as the game
board's spatial configurations, to ensure a win. We evaluate a diverse set of
state-of-the-art LRMs, and discover that the models that excel at hard
math problems frequently fail at these simple reasoning games. Further testing
reveals that our evaluated reasoning models score on average downarrow 41\%
\& downarrow 5\% lower on TTT-Bench compared to MATH 500 \& AIME 2024
respectively, with larger models achieving higher performance using shorter
reasoning traces, where most of the models struggle on long-term strategic
reasoning situations on simple and new TTT-Bench tasks.