PlanningBench : Générer des données de planification évolutives et vérifiables pour l'évaluation et l'entraînement de grands modèles de langage

Résumé

La planification est une capacité fondamentale pour les grands modèles de langage (LLMs), car ces tâches complexes exigent que les modèles coordonnent objectifs, contraintes, ressources et conséquences à long terme en solutions exécutables et vérifiables. Les bancs d’essai de planification existants, cependant, traitent généralement les données de planification comme des collections fixes d’instances plutôt que comme des cibles de génération contrôlables. Cela limite la couverture des scénarios, associe la difficulté à des proxies de surface plutôt qu’à des sources structurelles, et offre un soutien limité pour la génération évolutive, la vérification automatique ou l’entraînement orienté planification. Nous introduisons PlanningBench, un cadre pour générer des données de planification évolutives, diverses et vérifiables, destinées à la fois à l’évaluation et à l’entraînement. PlanningBench part de scénarios de planification réels et abstrait les flux de travail pratiques en une taxonomie structurée de plus de 30 types de tâches, sous‑tâches, familles de contraintes et facteurs de difficulté. Guidé par cette taxonomie, un pipeline de synthèse piloté par contraintes instancie des problèmes de planification autonomes avec un contrôle adaptatif de la difficulté, un filtrage de qualité et des listes de vérification au niveau des instances. Cela déplace la construction des données de planification d’une collecte fixe de bancs d’essai vers une génération contrôlable, tout en préservant un ancrage réaliste des tâches. Nous utilisons PlanningBench pour évaluer des LLMs de pointe open‑source et closed‑source, et constatons que les modèles actuels peinent encore à produire des solutions complètes sous contraintes couplées. Au‑delà de l’évaluation, l’apprentissage par renforcement sur les données vérifiées de PlanningBench améliore les performances sur des bancs d’essai de planification inédits et sur des tâches plus larges de suivi d’instructions. Des analyses supplémentaires suggèrent que des solutions optimales déterminées ou bien spécifiées fournissent des signaux de récompense plus clairs et des dynamiques d’entraînement plus stables. Dans l’ensemble, PlanningBench offre une source contrôlable de données de planification pour diagnostiquer et améliorer les capacités de planification généralisables des LLMs.

English

Planning is a fundamental capability for large language models (LLMs) because such complex tasks require models to coordinate goals, constraints, resources, and long-term consequences into executable and verifiable solutions. Existing planning benchmarks, however, usually treat planning data as fixed collections of instances rather than controllable generation targets. This limits scenario coverage, ties difficulty to surface-level proxies rather than structural sources, and offers limited support for scalable generation, automatic verification, or planning-oriented training. We introduce PlanningBench, a framework for generating scalable, diverse, and verifiable planning data for both evaluation and training. PlanningBench starts from real planning scenarios and abstracts practical workflows into a structured taxonomy of more than 30 task types, subtasks, constraint families, and difficulty factors. Guided by this taxonomy, a constraint-driven synthesis pipeline instantiates self-contained planning problems with adaptive difficulty control, quality filtering, and instance-level verification checklists. This shifts planning data construction from fixed benchmark collection to controllable generation while preserving realistic task grounding. We use PlanningBench to evaluate open-source and closed-source frontier LLMs, and find that current models still struggle to produce complete solutions under coupled constraints. Beyond evaluation, reinforcement learning on verified PlanningBench data improves performance on unseen planning benchmarks and broader instruction-following tasks. Further analysis suggests that determinate or well-specified optimal solutions provide clearer reward signals and more stable training dynamics. Overall, PlanningBench provides a controllable source of planning data for diagnosing and improving generalizable planning abilities in LLMs.