ChatPaper.aiChatPaper

PuzzlePlex: Valutazione dei Modelli di Base su Ragionamento e Pianificazione attraverso Enigmi

PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles

October 7, 2025
Autori: Yitao Long, Yuru Jiang, Hongjun Liu, Yilun Zhao, Jingchen Sun, Yiqiu Shen, Chen Zhao, Arman Cohan, Dennis Shasha
cs.AI

Abstract

Questo lavoro indaga le capacità di ragionamento e pianificazione dei modelli di base e la loro scalabilità in ambienti complessi e dinamici. Introduciamo PuzzlePlex, un benchmark progettato per valutare queste capacità attraverso un insieme diversificato di puzzle. PuzzlePlex è composto da 15 tipi di puzzle, inclusi giochi deterministici e stocastici di varia difficoltà, nonché scenari per un giocatore e due giocatori. Il framework PuzzlePlex fornisce un ambiente completo per ogni gioco e supporta l'estensibilità per generare istanze più impegnative man mano che i modelli di base si evolvono. Inoltre, implementiamo strategie personalizzate di gioco per il confronto. Basandoci su questo benchmark, sviluppiamo metriche dettagliate per misurare le prestazioni e conduciamo un'analisi approfondita dei modelli di base all'avanguardia in due contesti: basato su istruzioni e basato su codice. Inoltre, indaghiamo sistematicamente i loro limiti di scalabilità. I nostri risultati mostrano che i modelli di ragionamento superano gli altri nei contesti basati su istruzioni, mentre l'esecuzione basata su codice presenta maggiori sfide ma offre un'alternativa scalabile ed efficiente. PuzzlePlex consente una valutazione mirata e guida i futuri miglioramenti nel ragionamento, nella pianificazione e nella generalizzazione per i modelli di base.
English
This work investigates the reasoning and planning capabilities of foundation models and their scalability in complex, dynamic environments. We introduce PuzzlePlex, a benchmark designed to assess these capabilities through a diverse set of puzzles. PuzzlePlex consists of 15 types of puzzles, including deterministic and stochastic games of varying difficulty, as well as single-player and two-player scenarios. The PuzzlePlex framework provides a comprehensive environment for each game, and supports extensibility to generate more challenging instances as foundation models evolve. Additionally, we implement customized game-playing strategies for comparison. Building on this benchmark, we develop fine-grained metrics to measure performance and conduct an in-depth analysis of frontier foundation models across two settings: instruction-based and code-based. Furthermore, we systematically investigate their scaling limits. Our findings show that reasoning models outperform others in instruction-based settings, while code-based execution presents greater challenges but offers a scalable and efficient alternative. PuzzlePlex enables targeted evaluation and guides future improvements in reasoning, planning, and generalization for foundation models.
PDF12October 9, 2025