ChatPaper.aiChatPaper

PuzzlePlex: Het benchmarken van foundation modellen op redeneren en plannen met puzzels

PuzzlePlex: Benchmarking Foundation Models on Reasoning and Planning with Puzzles

October 7, 2025
Auteurs: Yitao Long, Yuru Jiang, Hongjun Liu, Yilun Zhao, Jingchen Sun, Yiqiu Shen, Chen Zhao, Arman Cohan, Dennis Shasha
cs.AI

Samenvatting

Dit onderzoek bestudeert de redeneer- en planningscapaciteiten van foundation modellen en hun schaalbaarheid in complexe, dynamische omgevingen. We introduceren PuzzlePlex, een benchmark ontworpen om deze capaciteiten te beoordelen via een diverse set puzzels. PuzzlePlex bestaat uit 15 soorten puzzels, waaronder deterministische en stochastische spellen van verschillende moeilijkheidsgraden, evenals single-player en two-player scenario's. Het PuzzlePlex-framework biedt een uitgebreide omgeving voor elk spel en ondersteunt uitbreidbaarheid om meer uitdagende instanties te genereren naarmate foundation modellen evolueren. Daarnaast implementeren we aangepaste spelstrategieën voor vergelijking. Op basis van deze benchmark ontwikkelen we gedetailleerde metrieken om prestaties te meten en voeren we een diepgaande analyse uit van frontier foundation modellen in twee settings: instructiegebaseerd en codegebaseerd. Verder onderzoeken we systematisch hun schaalbaarheidslimieten. Onze bevindingen tonen aan dat redeneermodellen beter presteren dan andere in instructiegebaseerde settings, terwijl codegebaseerde uitvoering grotere uitdagingen biedt maar een schaalbare en efficiënte alternatieve aanpak mogelijk maakt. PuzzlePlex maakt gerichte evaluatie mogelijk en leidt toekomstige verbeteringen in redeneren, plannen en generalisatie voor foundation modellen.
English
This work investigates the reasoning and planning capabilities of foundation models and their scalability in complex, dynamic environments. We introduce PuzzlePlex, a benchmark designed to assess these capabilities through a diverse set of puzzles. PuzzlePlex consists of 15 types of puzzles, including deterministic and stochastic games of varying difficulty, as well as single-player and two-player scenarios. The PuzzlePlex framework provides a comprehensive environment for each game, and supports extensibility to generate more challenging instances as foundation models evolve. Additionally, we implement customized game-playing strategies for comparison. Building on this benchmark, we develop fine-grained metrics to measure performance and conduct an in-depth analysis of frontier foundation models across two settings: instruction-based and code-based. Furthermore, we systematically investigate their scaling limits. Our findings show that reasoning models outperform others in instruction-based settings, while code-based execution presents greater challenges but offers a scalable and efficient alternative. PuzzlePlex enables targeted evaluation and guides future improvements in reasoning, planning, and generalization for foundation models.
PDF12October 9, 2025