PlanningBench: Gerando dados de planejamento escaláveis e verificáveis para avaliar e treinar grandes modelos de linguagem

Resumo

O planejamento é uma capacidade fundamental para grandes modelos de linguagem (LLMs), pois tarefas complexas exigem que os modelos coordenem objetivos, restrições, recursos e consequências de longo prazo em soluções executáveis e verificáveis. No entanto, os benchmarks existentes de planejamento geralmente tratam os dados de planejamento como coleções fixas de instâncias, em vez de alvos de geração controláveis. Isso limita a cobertura de cenários, vincula a dificuldade a proxies superficiais em vez de fontes estruturais e oferece suporte limitado para geração escalável, verificação automática ou treinamento orientado ao planejamento. Apresentamos o PlanningBench, um framework para gerar dados de planejamento escaláveis, diversos e verificáveis, tanto para avaliação quanto para treinamento. O PlanningBench parte de cenários reais de planejamento e abstrai workflows práticos em uma taxonomia estruturada com mais de 30 tipos de tarefas, subtarefas, famílias de restrições e fatores de dificuldade. Guiado por essa taxonomia, um pipeline de síntese orientado por restrições instancia problemas de planejamento autocontidos com controle adaptativo de dificuldade, filtragem de qualidade e listas de verificação em nível de instância. Isso desloca a construção de dados de planejamento de uma coleta fixa de benchmarks para uma geração controlável, preservando ao mesmo tempo o embasamento realista das tarefas. Usamos o PlanningBench para avaliar LLMs de ponta de código aberto e fechado, e descobrimos que os modelos atuais ainda têm dificuldade em produzir soluções completas sob restrições acopladas. Além da avaliação, o aprendizado por reforço com dados verificados do PlanningBench melhora o desempenho em benchmarks de planejamento não vistos e em tarefas mais amplas de seguimento de instruções. Análises adicionais sugerem que soluções ótimas determinadas ou bem especificadas fornecem sinais de recompensa mais claros e dinâmicas de treinamento mais estáveis. No geral, o PlanningBench fornece uma fonte controlável de dados de planejamento para diagnosticar e aprimorar habilidades de planejamento generalizáveis em LLMs.

English

Planning is a fundamental capability for large language models (LLMs) because such complex tasks require models to coordinate goals, constraints, resources, and long-term consequences into executable and verifiable solutions. Existing planning benchmarks, however, usually treat planning data as fixed collections of instances rather than controllable generation targets. This limits scenario coverage, ties difficulty to surface-level proxies rather than structural sources, and offers limited support for scalable generation, automatic verification, or planning-oriented training. We introduce PlanningBench, a framework for generating scalable, diverse, and verifiable planning data for both evaluation and training. PlanningBench starts from real planning scenarios and abstracts practical workflows into a structured taxonomy of more than 30 task types, subtasks, constraint families, and difficulty factors. Guided by this taxonomy, a constraint-driven synthesis pipeline instantiates self-contained planning problems with adaptive difficulty control, quality filtering, and instance-level verification checklists. This shifts planning data construction from fixed benchmark collection to controllable generation while preserving realistic task grounding. We use PlanningBench to evaluate open-source and closed-source frontier LLMs, and find that current models still struggle to produce complete solutions under coupled constraints. Beyond evaluation, reinforcement learning on verified PlanningBench data improves performance on unseen planning benchmarks and broader instruction-following tasks. Further analysis suggests that determinate or well-specified optimal solutions provide clearer reward signals and more stable training dynamics. Overall, PlanningBench provides a controllable source of planning data for diagnosing and improving generalizable planning abilities in LLMs.