PlanningBench: Generación de datos de planificación escalables y verificables para la evaluación y el entrenamiento de grandes modelos de lenguaje

Resumen

La planificación es una capacidad fundamental para los modelos de lenguaje grandes (LLMs), ya que tareas complejas requieren que los modelos coordinen objetivos, restricciones, recursos y consecuencias a largo plazo para generar soluciones ejecutables y verificables. Sin embargo, los benchmarks de planificación existentes suelen tratar los datos de planificación como colecciones fijas de instancias en lugar de objetivos de generación controlables. Esto limita la cobertura de escenarios, vincula la dificultad a indicadores superficiales en lugar de fuentes estructurales, y ofrece un soporte limitado para la generación escalable, la verificación automática o el entrenamiento orientado a la planificación. Presentamos PlanningBench, un marco para generar datos de planificación escalables, diversos y verificables tanto para evaluación como para entrenamiento. PlanningBench parte de escenarios de planificación reales y abstrae flujos de trabajo prácticos en una taxonomía estructurada de más de 30 tipos de tareas, subtareas, familias de restricciones y factores de dificultad. Guiada por esta taxonomía, un pipeline de síntesis impulsado por restricciones instancia problemas de planificación autocontenidos con control adaptativo de la dificultad, filtrado de calidad y listas de verificación a nivel de instancia. Esto desplaza la construcción de datos de planificación desde la recopilación de benchmarks fijos hacia la generación controlable, manteniendo al mismo tiempo una base realista de las tareas. Usamos PlanningBench para evaluar LLMs de frontera de código abierto y cerrado, y encontramos que los modelos actuales aún tienen dificultades para producir soluciones completas bajo restricciones acopladas. Más allá de la evaluación, el aprendizaje por refuerzo con datos verificados de PlanningBench mejora el rendimiento en benchmarks de planificación no vistos y en tareas más amplias de seguimiento de instrucciones. Análisis adicionales sugieren que las soluciones óptimas determinadas o bien especificadas proporcionan señales de recompensa más claras y dinámicas de entrenamiento más estables. En general, PlanningBench ofrece una fuente controlable de datos de planificación para diagnosticar y mejorar las capacidades de planificación generalizables en los LLMs.

English

Planning is a fundamental capability for large language models (LLMs) because such complex tasks require models to coordinate goals, constraints, resources, and long-term consequences into executable and verifiable solutions. Existing planning benchmarks, however, usually treat planning data as fixed collections of instances rather than controllable generation targets. This limits scenario coverage, ties difficulty to surface-level proxies rather than structural sources, and offers limited support for scalable generation, automatic verification, or planning-oriented training. We introduce PlanningBench, a framework for generating scalable, diverse, and verifiable planning data for both evaluation and training. PlanningBench starts from real planning scenarios and abstracts practical workflows into a structured taxonomy of more than 30 task types, subtasks, constraint families, and difficulty factors. Guided by this taxonomy, a constraint-driven synthesis pipeline instantiates self-contained planning problems with adaptive difficulty control, quality filtering, and instance-level verification checklists. This shifts planning data construction from fixed benchmark collection to controllable generation while preserving realistic task grounding. We use PlanningBench to evaluate open-source and closed-source frontier LLMs, and find that current models still struggle to produce complete solutions under coupled constraints. Beyond evaluation, reinforcement learning on verified PlanningBench data improves performance on unseen planning benchmarks and broader instruction-following tasks. Further analysis suggests that determinate or well-specified optimal solutions provide clearer reward signals and more stable training dynamics. Overall, PlanningBench provides a controllable source of planning data for diagnosing and improving generalizable planning abilities in LLMs.