AdaPlanBench: Оценка адаптивного планирования в агентах на основе больших языковых моделей в условиях ограничений мира и пользователя

Аннотация

Планирование решения реальных задач с помощью языковых моделей часто предполагает учёт как мировых, так и пользовательских ограничений, которые могут быть полностью не определены заранее и постепенно раскрываются в ходе взаимодействия. Однако существующие бенчмарки всё ещё недостаточно исследуют адаптивное планирование в условиях таких постепенно раскрываемых двойных ограничений. Для устранения этого пробела мы представляем AdaPlanBench — динамический интерактивный бенчмарк для оценки способности агентов на основе больших языковых моделей (LLM) адаптивно планировать и перепланировать действия в условиях постепенно раскрываемых мировых и пользовательских ограничений. AdaPlanBench построен на основе 307 домашних задач и включает масштабируемый конвейер генерации ограничений, который дополняет каждую задачу двойными ограничениями. Во время выполнения агенты взаимодействуют со средой по многократному протоколу, в котором скрытые ограничения раскрываются только тогда, когда агент предлагает план, нарушающий их, что требует итеративного пересмотра плана по мере накопления обратной связи. Это делает планирование сложным, поскольку агенты должны выводить и отслеживать ограничения из обратной связи, одновременно эффективно перепланируя. Эксперименты на десяти ведущих LLM показывают, что адаптивное планирование в условиях двойных ограничений остаётся сложной задачей: наилучшая модель достигает лишь 67,75% точности. Кроме того, мы наблюдаем снижение производительности по мере накопления большего количества ограничений, причём пользовательские ограничения представляют особую сложность, а сбои часто возникают из-за более слабой физической обоснованности и снижения эффективности. Эти результаты утверждают AdaPlanBench как испытательный полигон для интерактивного планирования с двойными ограничениями и подчёркивают сложность надёжной адаптации к динамически раскрываемым ограничениям в агентах на основе LLM.

English

Planning for real-world problems by language models often involves both world and user constraints, which may not be fully specified upfront and are progressively disclosed through interaction. However, existing benchmarks still underexplore adaptive planning under such progressively revealed dual constraints. To address this gap, we introduce AdaPlanBench, a dynamic interactive benchmark for evaluating whether Large Language Model (LLM) agents can adaptively plan and re-plan under progressively revealed world and user constraints. AdaPlanBench is built on 307 household tasks, with a scalable constraint construction pipeline that augments each task with dual constraints. At runtime, agents interact with the environment in a multi-turn protocol where hidden constraints are revealed only when the agent proposes a plan that violates them, requiring iterative plan revision under accumulating feedback. This makes planning challenging, as agents must infer and track constraints from feedback while re-planning effectively. Experiments on ten leading LLMs show that adaptive planning under dual constraints remains challenging, with the best model reaching only 67.75% accuracy. We further observe that performance degrades as more constraints accumulate, with user constraints posing a particularly large challenge and failures often stemming from weaker physical grounding and reduced effectiveness. These results establish AdaPlanBench as a testbed for dual-constrained interactive planning and highlight the challenge of reliable adaptation to dynamically revealed constraints in LLM agents.