PuzzlePlex : Évaluation des modèles de base sur le raisonnement et la planification à travers des énigmes
PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles
October 7, 2025
papers.authors: Yitao Long, Yuru Jiang, Hongjun Liu, Yilun Zhao, Jingchen Sun, Yiqiu Shen, Chen Zhao, Arman Cohan, Dennis Shasha
cs.AI
papers.abstract
Ce travail étudie les capacités de raisonnement et de planification des modèles de base ainsi que leur évolutivité dans des environnements complexes et dynamiques. Nous présentons PuzzlePlex, un benchmark conçu pour évaluer ces capacités à travers un ensemble varié de puzzles. PuzzlePlex comprend 15 types de puzzles, incluant des jeux déterministes et stochastiques de difficulté variable, ainsi que des scénarios à un joueur et à deux joueurs. Le cadre PuzzlePlex fournit un environnement complet pour chaque jeu et permet une extensibilité pour générer des instances plus difficiles à mesure que les modèles de base évoluent. De plus, nous mettons en œuvre des stratégies personnalisées de jeu pour comparaison. En nous appuyant sur ce benchmark, nous développons des métriques fines pour mesurer les performances et réalisons une analyse approfondie des modèles de base de pointe dans deux contextes : basé sur des instructions et basé sur du code. Par ailleurs, nous étudions systématiquement leurs limites d’évolutivité. Nos résultats montrent que les modèles de raisonnement surpassent les autres dans les contextes basés sur des instructions, tandis que l’exécution basée sur du code présente des défis plus importants mais offre une alternative évolutive et efficace. PuzzlePlex permet une évaluation ciblée et guide les améliorations futures en matière de raisonnement, de planification et de généralisation pour les modèles de base.
English
This work investigates the reasoning and planning capabilities of foundation
models and their scalability in complex, dynamic environments. We introduce
PuzzlePlex, a benchmark designed to assess these capabilities through a diverse
set of puzzles. PuzzlePlex consists of 15 types of puzzles, including
deterministic and stochastic games of varying difficulty, as well as
single-player and two-player scenarios. The PuzzlePlex framework provides a
comprehensive environment for each game, and supports extensibility to generate
more challenging instances as foundation models evolve. Additionally, we
implement customized game-playing strategies for comparison. Building on this
benchmark, we develop fine-grained metrics to measure performance and conduct
an in-depth analysis of frontier foundation models across two settings:
instruction-based and code-based. Furthermore, we systematically investigate
their scaling limits. Our findings show that reasoning models outperform others
in instruction-based settings, while code-based execution presents greater
challenges but offers a scalable and efficient alternative. PuzzlePlex enables
targeted evaluation and guides future improvements in reasoning, planning, and
generalization for foundation models.