AdaPlanBench: Evaluatie van adaptieve planning in grote-taalmodelagenten onder wereld- en gebruikersbeperkingen

Samenvatting

Planning voor echte wereldproblemen door taalmodellen omvat vaak zowel wereld- als gebruikersbeperkingen, die mogelijk niet vooraf volledig gespecificeerd zijn en geleidelijk worden onthuld door middel van interactie. Echter, bestaande benchmarks verkennen adaptieve planning onder dergelijke progressief onthulde dubbele beperkingen nog onvoldoende. Om deze leemte aan te pakken, introduceren we AdaPlanBench, een dynamische interactieve benchmark voor het evalueren of Large Language Model (LLM)-agenten adaptief kunnen plannen en herplannen onder progressief onthulde wereld- en gebruikersbeperkingen. AdaPlanBench is gebouwd op 307 huishoudelijke taken, met een schaalbare pijplijn voor het construeren van beperkingen die elke taak voorziet van dubbele beperkingen. Tijdens uitvoering interageren agenten met de omgeving in een meer-stappenprotocol waarbij verborgen beperkingen alleen worden onthuld wanneer de agent een plan voorstelt dat deze schendt, wat iteratieve planningsherziening vereist onder accumulerende feedback. Dit maakt planning uitdagend, aangezien agenten beperkingen moeten afleiden en bijhouden uit feedback terwijl ze effectief herplannen. Experimenten met tien toonaangevende LLM's tonen aan dat adaptieve planning onder dubbele beperkingen uitdagend blijft, waarbij het beste model slechts 67,75% nauwkeurigheid bereikt. We zien verder dat de prestaties afnemen naarmate er meer beperkingen accumuleren, waarbij gebruikersbeperkingen een bijzonder grote uitdaging vormen en mislukkingen vaak voortkomen uit zwakkere fysieke verankering en verminderde effectiviteit. Deze resultaten vestigen AdaPlanBench als een testbed voor interactieve planning met dubbele beperkingen en benadrukken de uitdaging van betrouwbare aanpassing aan dynamisch onthulde beperkingen in LLM-agenten.

English

Planning for real-world problems by language models often involves both world and user constraints, which may not be fully specified upfront and are progressively disclosed through interaction. However, existing benchmarks still underexplore adaptive planning under such progressively revealed dual constraints. To address this gap, we introduce AdaPlanBench, a dynamic interactive benchmark for evaluating whether Large Language Model (LLM) agents can adaptively plan and re-plan under progressively revealed world and user constraints. AdaPlanBench is built on 307 household tasks, with a scalable constraint construction pipeline that augments each task with dual constraints. At runtime, agents interact with the environment in a multi-turn protocol where hidden constraints are revealed only when the agent proposes a plan that violates them, requiring iterative plan revision under accumulating feedback. This makes planning challenging, as agents must infer and track constraints from feedback while re-planning effectively. Experiments on ten leading LLMs show that adaptive planning under dual constraints remains challenging, with the best model reaching only 67.75% accuracy. We further observe that performance degrades as more constraints accumulate, with user constraints posing a particularly large challenge and failures often stemming from weaker physical grounding and reduced effectiveness. These results establish AdaPlanBench as a testbed for dual-constrained interactive planning and highlight the challenge of reliable adaptation to dynamically revealed constraints in LLM agents.