PuzzlePlex : Évaluation des modèles de base sur le raisonnement et la planification à travers des énigmes

papers.abstract

Ce travail étudie les capacités de raisonnement et de planification des modèles de base ainsi que leur évolutivité dans des environnements complexes et dynamiques. Nous présentons PuzzlePlex, un benchmark conçu pour évaluer ces capacités à travers un ensemble varié de puzzles. PuzzlePlex comprend 15 types de puzzles, incluant des jeux déterministes et stochastiques de difficulté variable, ainsi que des scénarios à un joueur et à deux joueurs. Le cadre PuzzlePlex fournit un environnement complet pour chaque jeu et permet une extensibilité pour générer des instances plus difficiles à mesure que les modèles de base évoluent. De plus, nous mettons en œuvre des stratégies personnalisées de jeu pour comparaison. En nous appuyant sur ce benchmark, nous développons des métriques fines pour mesurer les performances et réalisons une analyse approfondie des modèles de base de pointe dans deux contextes : basé sur des instructions et basé sur du code. Par ailleurs, nous étudions systématiquement leurs limites d’évolutivité. Nos résultats montrent que les modèles de raisonnement surpassent les autres dans les contextes basés sur des instructions, tandis que l’exécution basée sur du code présente des défis plus importants mais offre une alternative évolutive et efficace. PuzzlePlex permet une évaluation ciblée et guide les améliorations futures en matière de raisonnement, de planification et de généralisation pour les modèles de base.

English

This work investigates the reasoning and planning capabilities of foundation models and their scalability in complex, dynamic environments. We introduce PuzzlePlex, a benchmark designed to assess these capabilities through a diverse set of puzzles. PuzzlePlex consists of 15 types of puzzles, including deterministic and stochastic games of varying difficulty, as well as single-player and two-player scenarios. The PuzzlePlex framework provides a comprehensive environment for each game, and supports extensibility to generate more challenging instances as foundation models evolve. Additionally, we implement customized game-playing strategies for comparison. Building on this benchmark, we develop fine-grained metrics to measure performance and conduct an in-depth analysis of frontier foundation models across two settings: instruction-based and code-based. Furthermore, we systematically investigate their scaling limits. Our findings show that reasoning models outperform others in instruction-based settings, while code-based execution presents greater challenges but offers a scalable and efficient alternative. PuzzlePlex enables targeted evaluation and guides future improvements in reasoning, planning, and generalization for foundation models.

PuzzlePlex : Évaluation des modèles de base sur le raisonnement et la planification à travers des énigmes

PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles

papers.abstract

Support