AdaPlanBench : Évaluation de la planification adaptative dans les agents basés sur de grands modèles de langage sous contraintes du monde et de l'utilisateur

Résumé

La planification pour des problèmes réels par les modèles de langage implique souvent à la fois des contraintes du monde et de l'utilisateur, qui peuvent ne pas être entièrement spécifiées initialement et sont progressivement révélées par l'interaction. Cependant, les référentiels existants explorent encore insuffisamment la planification adaptative sous de telles contraintes doubles révélées progressivement. Pour combler cette lacune, nous présentons AdaPlanBench, un référentiel interactif dynamique pour évaluer si les agents basés sur de grands modèles de langage (LLM) peuvent planifier et replanifier de manière adaptative sous des contraintes du monde et de l'utilisateur révélées progressivement. AdaPlanBench repose sur 307 tâches domestiques, avec un pipeline évolutif de construction de contraintes qui enrichit chaque tâche de contraintes doubles. Lors de l'exécution, les agents interagissent avec l'environnement selon un protocole multi-tours où les contraintes cachées ne sont révélées que lorsque l'agent propose un plan qui les viole, nécessitant une révision itérative du plan sous l'effet d'un retour d'information cumulatif. Cela rend la planification difficile, car les agents doivent inférer et suivre les contraintes à partir du retour d'information tout en replanifiant efficacement. Les expériences menées sur dix LLM de premier plan montrent que la planification adaptative sous contraintes doubles reste un défi, le meilleur modèle atteignant seulement 67,75 % de précision. Nous observons en outre que la performance se dégrade à mesure que davantage de contraintes s'accumulent, les contraintes utilisateur posant un défi particulièrement important et les échecs découlant souvent d'un ancrage physique plus faible et d'une efficacité réduite. Ces résultats établissent AdaPlanBench comme un banc d'essai pour la planification interactive sous contraintes doubles et mettent en lumière le défi de l'adaptation fiable à des contraintes révélées dynamiquement dans les agents LLM.

English

Planning for real-world problems by language models often involves both world and user constraints, which may not be fully specified upfront and are progressively disclosed through interaction. However, existing benchmarks still underexplore adaptive planning under such progressively revealed dual constraints. To address this gap, we introduce AdaPlanBench, a dynamic interactive benchmark for evaluating whether Large Language Model (LLM) agents can adaptively plan and re-plan under progressively revealed world and user constraints. AdaPlanBench is built on 307 household tasks, with a scalable constraint construction pipeline that augments each task with dual constraints. At runtime, agents interact with the environment in a multi-turn protocol where hidden constraints are revealed only when the agent proposes a plan that violates them, requiring iterative plan revision under accumulating feedback. This makes planning challenging, as agents must infer and track constraints from feedback while re-planning effectively. Experiments on ten leading LLMs show that adaptive planning under dual constraints remains challenging, with the best model reaching only 67.75% accuracy. We further observe that performance degrades as more constraints accumulate, with user constraints posing a particularly large challenge and failures often stemming from weaker physical grounding and reduced effectiveness. These results establish AdaPlanBench as a testbed for dual-constrained interactive planning and highlight the challenge of reliable adaptation to dynamically revealed constraints in LLM agents.