PuzzlePlex: Bewertung von Foundation-Modellen in Bezug auf logisches Denken und Planung anhand von Rätseln
PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles
October 7, 2025
papers.authors: Yitao Long, Yuru Jiang, Hongjun Liu, Yilun Zhao, Jingchen Sun, Yiqiu Shen, Chen Zhao, Arman Cohan, Dennis Shasha
cs.AI
papers.abstract
Diese Arbeit untersucht die Fähigkeiten von Foundation-Modellen im Bereich des logischen Denkens und der Planung sowie deren Skalierbarkeit in komplexen, dynamischen Umgebungen. Wir stellen PuzzlePlex vor, einen Benchmark, der entwickelt wurde, um diese Fähigkeiten anhand einer Vielzahl von Rätseln zu bewerten. PuzzlePlex besteht aus 15 Arten von Rätseln, darunter deterministische und stochastische Spiele mit unterschiedlichem Schwierigkeitsgrad sowie Einzelspieler- und Zweispieler-Szenarien. Das PuzzlePlex-Framework bietet eine umfassende Umgebung für jedes Spiel und unterstützt die Erweiterbarkeit, um anspruchsvollere Instanzen zu generieren, sobald sich die Foundation-Modelle weiterentwickeln. Zusätzlich implementieren wir maßgeschneiderte Spielstrategien für Vergleichszwecke. Aufbauend auf diesem Benchmark entwickeln wir fein abgestimmte Metriken zur Leistungsmessung und führen eine detaillierte Analyse von führenden Foundation-Modellen in zwei Kontexten durch: anweisungsbasiert und codebasiert. Darüber hinaus untersuchen wir systematisch deren Skalierungsgrenzen. Unsere Ergebnisse zeigen, dass Modelle für logisches Denken in anweisungsbasierten Kontexten besser abschneiden, während die codebasierte Ausführung größere Herausforderungen darstellt, aber eine skalierbare und effiziente Alternative bietet. PuzzlePlex ermöglicht eine gezielte Bewertung und leitet zukünftige Verbesserungen in den Bereichen logisches Denken, Planung und Generalisierung für Foundation-Modelle an.
English
This work investigates the reasoning and planning capabilities of foundation
models and their scalability in complex, dynamic environments. We introduce
PuzzlePlex, a benchmark designed to assess these capabilities through a diverse
set of puzzles. PuzzlePlex consists of 15 types of puzzles, including
deterministic and stochastic games of varying difficulty, as well as
single-player and two-player scenarios. The PuzzlePlex framework provides a
comprehensive environment for each game, and supports extensibility to generate
more challenging instances as foundation models evolve. Additionally, we
implement customized game-playing strategies for comparison. Building on this
benchmark, we develop fine-grained metrics to measure performance and conduct
an in-depth analysis of frontier foundation models across two settings:
instruction-based and code-based. Furthermore, we systematically investigate
their scaling limits. Our findings show that reasoning models outperform others
in instruction-based settings, while code-based execution presents greater
challenges but offers a scalable and efficient alternative. PuzzlePlex enables
targeted evaluation and guides future improvements in reasoning, planning, and
generalization for foundation models.