퍼즐플렉스: 퍼즐을 통한 추론 및 계획 능력에 대한 기초 모델 벤치마킹
PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles
October 7, 2025
저자: Yitao Long, Yuru Jiang, Hongjun Liu, Yilun Zhao, Jingchen Sun, Yiqiu Shen, Chen Zhao, Arman Cohan, Dennis Shasha
cs.AI
초록
본 연구는 기초 모델의 추론 및 계획 능력과 복잡하고 동적인 환경에서의 확장성을 탐구한다. 이를 위해 다양한 퍼즐을 통해 이러한 능력을 평가할 수 있는 벤치마크인 PuzzlePlex를 소개한다. PuzzlePlex는 다양한 난이도의 결정론적 및 확률론적 게임, 그리고 단일 플레이어 및 두 명의 플레이어 시나리오를 포함한 15가지 유형의 퍼즐로 구성된다. PuzzlePlex 프레임워크는 각 게임에 대한 포괄적인 환경을 제공하며, 기초 모델이 진화함에 따라 더 도전적인 인스턴스를 생성할 수 있는 확장성을 지원한다. 또한, 비교를 위해 맞춤형 게임 플레이 전략을 구현한다. 이 벤치마크를 기반으로, 성능을 측정하기 위한 세분화된 지표를 개발하고, 지시 기반 및 코드 기반 두 가지 설정에서 최첨단 기초 모델에 대한 심층 분석을 수행한다. 더 나아가, 이들의 확장 한계를 체계적으로 조사한다. 연구 결과, 추론 모델은 지시 기반 설정에서 다른 모델들을 능가하는 반면, 코드 기반 실행은 더 큰 도전을 제시하지만 확장 가능하고 효율적인 대안을 제공한다. PuzzlePlex는 기초 모델의 추론, 계획 및 일반화 능력에 대한 목표 지향적 평가를 가능하게 하고, 향후 개선을 위한 방향을 제시한다.
English
This work investigates the reasoning and planning capabilities of foundation
models and their scalability in complex, dynamic environments. We introduce
PuzzlePlex, a benchmark designed to assess these capabilities through a diverse
set of puzzles. PuzzlePlex consists of 15 types of puzzles, including
deterministic and stochastic games of varying difficulty, as well as
single-player and two-player scenarios. The PuzzlePlex framework provides a
comprehensive environment for each game, and supports extensibility to generate
more challenging instances as foundation models evolve. Additionally, we
implement customized game-playing strategies for comparison. Building on this
benchmark, we develop fine-grained metrics to measure performance and conduct
an in-depth analysis of frontier foundation models across two settings:
instruction-based and code-based. Furthermore, we systematically investigate
their scaling limits. Our findings show that reasoning models outperform others
in instruction-based settings, while code-based execution presents greater
challenges but offers a scalable and efficient alternative. PuzzlePlex enables
targeted evaluation and guides future improvements in reasoning, planning, and
generalization for foundation models.