AdaPlanBench: Evaluación de la planificación adaptativa en agentes de modelos de lenguaje de gran escala bajo restricciones del mundo y del usuario

Resumen

La planificación de problemas del mundo real por parte de modelos de lenguaje a menudo implica restricciones tanto del mundo como del usuario, que pueden no estar completamente especificadas desde el principio y se revelan progresivamente a través de la interacción. Sin embargo, los puntos de referencia existentes aún no exploran suficientemente la planificación adaptativa bajo tales restricciones duales reveladas progresivamente. Para abordar esta brecha, presentamos AdaPlanBench, un banco de pruebas interactivo y dinámico para evaluar si los agentes basados en Modelos de Lenguaje Grande (LLM) pueden planificar y replanificar de forma adaptativa bajo restricciones del mundo y del usuario que se revelan progresivamente. AdaPlanBench se construye sobre 307 tareas domésticas, con un flujo de construcción de restricciones escalable que aumenta cada tarea con restricciones duales. En tiempo de ejecución, los agentes interactúan con el entorno mediante un protocolo de múltiples turnos donde las restricciones ocultas se revelan solo cuando el agente propone un plan que las viola, lo que requiere una revisión iterativa del plan bajo retroalimentación acumulativa. Esto hace que la planificación sea un desafío, ya que los agentes deben inferir y rastrear las restricciones a partir de la retroalimentación mientras replanifican de manera efectiva. Los experimentos con diez LLM líderes muestran que la planificación adaptativa bajo restricciones duales sigue siendo un desafío, alcanzando el mejor modelo solo un 67.75% de precisión. Observamos además que el rendimiento se degrada a medida que se acumulan más restricciones, siendo las restricciones del usuario un desafío particularmente grande, y los fallos a menudo provienen de un fundamento físico más débil y una efectividad reducida. Estos resultados establecen a AdaPlanBench como un banco de pruebas para la planificación interactiva con restricciones duales y resaltan el desafío de la adaptación confiable a restricciones reveladas dinámicamente en agentes LLM.

English

Planning for real-world problems by language models often involves both world and user constraints, which may not be fully specified upfront and are progressively disclosed through interaction. However, existing benchmarks still underexplore adaptive planning under such progressively revealed dual constraints. To address this gap, we introduce AdaPlanBench, a dynamic interactive benchmark for evaluating whether Large Language Model (LLM) agents can adaptively plan and re-plan under progressively revealed world and user constraints. AdaPlanBench is built on 307 household tasks, with a scalable constraint construction pipeline that augments each task with dual constraints. At runtime, agents interact with the environment in a multi-turn protocol where hidden constraints are revealed only when the agent proposes a plan that violates them, requiring iterative plan revision under accumulating feedback. This makes planning challenging, as agents must infer and track constraints from feedback while re-planning effectively. Experiments on ten leading LLMs show that adaptive planning under dual constraints remains challenging, with the best model reaching only 67.75% accuracy. We further observe that performance degrades as more constraints accumulate, with user constraints posing a particularly large challenge and failures often stemming from weaker physical grounding and reduced effectiveness. These results establish AdaPlanBench as a testbed for dual-constrained interactive planning and highlight the challenge of reliable adaptation to dynamically revealed constraints in LLM agents.