ChatPaper.aiChatPaper

PuzzlePlex: Оценка базовых моделей на способность к рассуждению и планированию с использованием головоломок

PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles

October 7, 2025
Авторы: Yitao Long, Yuru Jiang, Hongjun Liu, Yilun Zhao, Jingchen Sun, Yiqiu Shen, Chen Zhao, Arman Cohan, Dennis Shasha
cs.AI

Аннотация

В данной работе исследуются способности базовых моделей к рассуждению и планированию, а также их масштабируемость в сложных динамических средах. Мы представляем PuzzlePlex — эталонный набор, разработанный для оценки этих способностей с помощью разнообразных головоломок. PuzzlePlex включает 15 типов головоломок, среди которых детерминированные и стохастические игры различной сложности, а также сценарии для одного и двух игроков. Фреймворк PuzzlePlex предоставляет комплексную среду для каждой игры и поддерживает расширяемость для создания более сложных задач по мере развития базовых моделей. Кроме того, мы реализуем специализированные стратегии для игры, предназначенные для сравнения. На основе этого эталонного набора мы разрабатываем детализированные метрики для измерения производительности и проводим углубленный анализ передовых базовых моделей в двух режимах: на основе инструкций и на основе кода. Также мы систематически исследуем их пределы масштабируемости. Наши результаты показывают, что модели рассуждений превосходят другие в режиме на основе инструкций, тогда как выполнение на основе кода представляет большие сложности, но предлагает масштабируемую и эффективную альтернативу. PuzzlePlex позволяет проводить целенаправленную оценку и направляет будущие улучшения в области рассуждений, планирования и обобщения для базовых моделей.
English
This work investigates the reasoning and planning capabilities of foundation models and their scalability in complex, dynamic environments. We introduce PuzzlePlex, a benchmark designed to assess these capabilities through a diverse set of puzzles. PuzzlePlex consists of 15 types of puzzles, including deterministic and stochastic games of varying difficulty, as well as single-player and two-player scenarios. The PuzzlePlex framework provides a comprehensive environment for each game, and supports extensibility to generate more challenging instances as foundation models evolve. Additionally, we implement customized game-playing strategies for comparison. Building on this benchmark, we develop fine-grained metrics to measure performance and conduct an in-depth analysis of frontier foundation models across two settings: instruction-based and code-based. Furthermore, we systematically investigate their scaling limits. Our findings show that reasoning models outperform others in instruction-based settings, while code-based execution presents greater challenges but offers a scalable and efficient alternative. PuzzlePlex enables targeted evaluation and guides future improvements in reasoning, planning, and generalization for foundation models.
PDF12October 9, 2025