ChatPaper.aiChatPaper

PuzzlePlex: Evaluación de Modelos Fundamentales en Razonamiento y Planificación mediante Rompecabezas

PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles

October 7, 2025
Autores: Yitao Long, Yuru Jiang, Hongjun Liu, Yilun Zhao, Jingchen Sun, Yiqiu Shen, Chen Zhao, Arman Cohan, Dennis Shasha
cs.AI

Resumen

Este trabajo investiga las capacidades de razonamiento y planificación de los modelos base y su escalabilidad en entornos complejos y dinámicos. Presentamos PuzzlePlex, un punto de referencia diseñado para evaluar estas capacidades a través de un conjunto diverso de rompecabezas. PuzzlePlex consta de 15 tipos de rompecabezas, que incluyen juegos deterministas y estocásticos de diversa dificultad, así como escenarios para un solo jugador y para dos jugadores. El marco de PuzzlePlex proporciona un entorno completo para cada juego y permite su extensión para generar instancias más desafiantes a medida que evolucionan los modelos base. Además, implementamos estrategias personalizadas de juego para comparación. Basándonos en este punto de referencia, desarrollamos métricas detalladas para medir el rendimiento y realizamos un análisis en profundidad de los modelos base de vanguardia en dos configuraciones: basada en instrucciones y basada en código. Asimismo, investigamos sistemáticamente sus límites de escalabilidad. Nuestros hallazgos muestran que los modelos de razonamiento superan a otros en entornos basados en instrucciones, mientras que la ejecución basada en código presenta mayores desafíos pero ofrece una alternativa escalable y eficiente. PuzzlePlex permite una evaluación dirigida y guía futuras mejoras en el razonamiento, la planificación y la generalización de los modelos base.
English
This work investigates the reasoning and planning capabilities of foundation models and their scalability in complex, dynamic environments. We introduce PuzzlePlex, a benchmark designed to assess these capabilities through a diverse set of puzzles. PuzzlePlex consists of 15 types of puzzles, including deterministic and stochastic games of varying difficulty, as well as single-player and two-player scenarios. The PuzzlePlex framework provides a comprehensive environment for each game, and supports extensibility to generate more challenging instances as foundation models evolve. Additionally, we implement customized game-playing strategies for comparison. Building on this benchmark, we develop fine-grained metrics to measure performance and conduct an in-depth analysis of frontier foundation models across two settings: instruction-based and code-based. Furthermore, we systematically investigate their scaling limits. Our findings show that reasoning models outperform others in instruction-based settings, while code-based execution presents greater challenges but offers a scalable and efficient alternative. PuzzlePlex enables targeted evaluation and guides future improvements in reasoning, planning, and generalization for foundation models.
PDF12October 9, 2025