AdaPlanBench: Avaliando o Planejamento Adaptativo em Agentes de Grandes Modelos de Linguagem sob Restrições do Mundo e do Usuário

Resumo

O planejamento de problemas do mundo real por modelos de linguagem frequentemente envolve tanto restrições do mundo quanto do usuário, que podem não ser totalmente especificadas de antemão e são progressivamente reveladas por meio da interação. No entanto, os benchmarks existentes ainda exploram de forma insuficiente o planejamento adaptativo sob tais restrições duplas reveladas progressivamente. Para preencher essa lacuna, apresentamos o AdaPlanBench, um benchmark interativo dinâmico para avaliar se agentes baseados em Modelos de Linguagem de Grande Escala (LLMs) conseguem planejar e replanejar de forma adaptativa sob restrições do mundo e do usuário reveladas progressivamente. O AdaPlanBench é construído sobre 307 tarefas domésticas, com um pipeline escalável de construção de restrições que aumenta cada tarefa com restrições duplas. Em tempo de execução, os agentes interagem com o ambiente em um protocolo de múltiplas rodadas, no qual restrições ocultas são reveladas apenas quando o agente propõe um plano que as viola, exigindo revisão iterativa do plano sob feedback acumulado. Isso torna o planejamento desafiador, pois os agentes devem inferir e rastrear restrições a partir do feedback enquanto replanejam de forma eficaz. Experimentos com dez LLMs líderes mostram que o planejamento adaptativo sob restrições duplas continua desafiador, com o melhor modelo atingindo apenas 67,75% de precisão. Observamos ainda que o desempenho se degrada à medida que mais restrições se acumulam, com as restrições do usuário representando um desafio particularmente grande e as falhas frequentemente decorrendo de fundamentação física mais fraca e eficácia reduzida. Esses resultados estabelecem o AdaPlanBench como um campo de teste para planejamento interativo com restrições duplas e destacam o desafio da adaptação confiável a restrições reveladas dinamicamente em agentes LLM.

English

Planning for real-world problems by language models often involves both world and user constraints, which may not be fully specified upfront and are progressively disclosed through interaction. However, existing benchmarks still underexplore adaptive planning under such progressively revealed dual constraints. To address this gap, we introduce AdaPlanBench, a dynamic interactive benchmark for evaluating whether Large Language Model (LLM) agents can adaptively plan and re-plan under progressively revealed world and user constraints. AdaPlanBench is built on 307 household tasks, with a scalable constraint construction pipeline that augments each task with dual constraints. At runtime, agents interact with the environment in a multi-turn protocol where hidden constraints are revealed only when the agent proposes a plan that violates them, requiring iterative plan revision under accumulating feedback. This makes planning challenging, as agents must infer and track constraints from feedback while re-planning effectively. Experiments on ten leading LLMs show that adaptive planning under dual constraints remains challenging, with the best model reaching only 67.75% accuracy. We further observe that performance degrades as more constraints accumulate, with user constraints posing a particularly large challenge and failures often stemming from weaker physical grounding and reduced effectiveness. These results establish AdaPlanBench as a testbed for dual-constrained interactive planning and highlight the challenge of reliable adaptation to dynamically revealed constraints in LLM agents.