AdaPlanBench: Evaluierung der adaptiven Planung von Large Language Model Agents unter Welt- und Nutzerbeschränkungen

Zusammenfassung

Die Planung für reale Probleme durch Sprachmodelle umfasst häufig sowohl Welt- als auch Benutzereinschränkungen, die zu Beginn nicht vollständig spezifiziert sind und erst durch Interaktion schrittweise offengelegt werden. Allerdings untersuchen bestehende Benchmarks die adaptive Planung unter solchen schrittweise offengelegten dualen Einschränkungen noch nicht ausreichend. Um diese Lücke zu schließen, stellen wir AdaPlanBench vor, einen dynamischen interaktiven Benchmark zur Bewertung, ob Large Language Model (LLM)-Agenten unter schrittweise offengelegten Welt- und Benutzereinschränkungen adaptiv planen und neu planen können. AdaPlanBench basiert auf 307 Haushaltsaufgaben mit einer skalierbaren Pipeline zur Konstruktion von Einschränkungen, die jede Aufgabe um duale Einschränkungen erweitert. Zur Laufzeit interagieren die Agenten in einem Multi-Turn-Protokoll mit der Umgebung, bei dem versteckte Einschränkungen nur dann offengelegt werden, wenn der Agent einen Plan vorschlägt, der gegen sie verstößt, was eine iterative Planüberarbeitung unter akkumulierendem Feedback erfordert. Dies macht die Planung anspruchsvoll, da Agenten aus dem Feedback Einschränkungen ableiten und verfolgen müssen, während sie gleichzeitig effektiv neu planen. Experimente mit zehn führenden LLMs zeigen, dass die adaptive Planung unter dualen Einschränkungen weiterhin herausfordernd ist, wobei das beste Modell nur eine Genauigkeit von 67,75 % erreicht. Wir beobachten weiterhin, dass die Leistung abnimmt, je mehr Einschränkungen sich ansammeln, wobei Benutzereinschränkungen eine besonders große Herausforderung darstellen und Fehler oft auf eine schwächere physische Verankerung und eine geringere Effektivität zurückzuführen sind. Diese Ergebnisse etablieren AdaPlanBench als Testumgebung für interaktive Planung mit dualen Einschränkungen und unterstreichen die Herausforderung einer zuverlässigen Anpassung an dynamisch offengelegte Einschränkungen in LLM-Agenten.

English

Planning for real-world problems by language models often involves both world and user constraints, which may not be fully specified upfront and are progressively disclosed through interaction. However, existing benchmarks still underexplore adaptive planning under such progressively revealed dual constraints. To address this gap, we introduce AdaPlanBench, a dynamic interactive benchmark for evaluating whether Large Language Model (LLM) agents can adaptively plan and re-plan under progressively revealed world and user constraints. AdaPlanBench is built on 307 household tasks, with a scalable constraint construction pipeline that augments each task with dual constraints. At runtime, agents interact with the environment in a multi-turn protocol where hidden constraints are revealed only when the agent proposes a plan that violates them, requiring iterative plan revision under accumulating feedback. This makes planning challenging, as agents must infer and track constraints from feedback while re-planning effectively. Experiments on ten leading LLMs show that adaptive planning under dual constraints remains challenging, with the best model reaching only 67.75% accuracy. We further observe that performance degrades as more constraints accumulate, with user constraints posing a particularly large challenge and failures often stemming from weaker physical grounding and reduced effectiveness. These results establish AdaPlanBench as a testbed for dual-constrained interactive planning and highlight the challenge of reliable adaptation to dynamically revealed constraints in LLM agents.