ChatPaper.aiChatPaper

PuzzlePlex: Avaliando Modelos de Base em Raciocínio e Planejamento com Quebra-Cabeças

PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles

October 7, 2025
Autores: Yitao Long, Yuru Jiang, Hongjun Liu, Yilun Zhao, Jingchen Sun, Yiqiu Shen, Chen Zhao, Arman Cohan, Dennis Shasha
cs.AI

Resumo

Este trabalho investiga as capacidades de raciocínio e planejamento de modelos de base e sua escalabilidade em ambientes complexos e dinâmicos. Introduzimos o PuzzlePlex, um benchmark projetado para avaliar essas capacidades por meio de um conjunto diversificado de quebra-cabeças. O PuzzlePlex consiste em 15 tipos de quebra-cabeças, incluindo jogos determinísticos e estocásticos de dificuldade variada, além de cenários para um jogador e dois jogadores. O framework PuzzlePlex fornece um ambiente abrangente para cada jogo e suporta extensibilidade para gerar instâncias mais desafiadoras à medida que os modelos de base evoluem. Além disso, implementamos estratégias personalizadas de jogo para comparação. Com base nesse benchmark, desenvolvemos métricas detalhadas para medir o desempenho e realizamos uma análise aprofundada de modelos de base de ponta em dois cenários: baseado em instruções e baseado em código. Adicionalmente, investigamos sistematicamente seus limites de escalabilidade. Nossos resultados mostram que modelos de raciocínio superam os demais em cenários baseados em instruções, enquanto a execução baseada em código apresenta desafios maiores, mas oferece uma alternativa escalável e eficiente. O PuzzlePlex permite avaliação direcionada e orienta melhorias futuras em raciocínio, planejamento e generalização para modelos de base.
English
This work investigates the reasoning and planning capabilities of foundation models and their scalability in complex, dynamic environments. We introduce PuzzlePlex, a benchmark designed to assess these capabilities through a diverse set of puzzles. PuzzlePlex consists of 15 types of puzzles, including deterministic and stochastic games of varying difficulty, as well as single-player and two-player scenarios. The PuzzlePlex framework provides a comprehensive environment for each game, and supports extensibility to generate more challenging instances as foundation models evolve. Additionally, we implement customized game-playing strategies for comparison. Building on this benchmark, we develop fine-grained metrics to measure performance and conduct an in-depth analysis of frontier foundation models across two settings: instruction-based and code-based. Furthermore, we systematically investigate their scaling limits. Our findings show that reasoning models outperform others in instruction-based settings, while code-based execution presents greater challenges but offers a scalable and efficient alternative. PuzzlePlex enables targeted evaluation and guides future improvements in reasoning, planning, and generalization for foundation models.
PDF12October 9, 2025