Kijk voor je springt: Autonome verkenning voor LLM-agenten

Samenvatting

Op grote taalmodellen gebaseerde agenten falen vaak in onbekende omgevingen door vroegtijdige exploitatie: een neiging om te handelen op basis van voorkennis voordat voldoende omgevingsspecifieke informatie is verworven. Wij identificeren autonome verkenning als een cruciale maar onderbelichte vaardigheid voor het bouwen van adaptieve agenten. Om deze vaardigheid te formaliseren en te kwantificeren, introduceren we Exploratie-Checkpoint-Dekking, een verifieerbare metriek die meet hoe breed een agent belangrijke toestanden, objecten en mogelijkheden ontdekt. Onze systematische evaluatie toont aan dat agenten die zijn getraind met standaard taakgeoriënteerd versterkingsleren consequent smal en repetitief gedrag vertonen dat de downstreamprestaties belemmert. Om deze beperking aan te pakken, ontwikkelen we een trainingsstrategie die taakuitvoeringsrollouts en verkenningsrollouts afwisselt, waarbij elk type rollout wordt geoptimaliseerd door de bijbehorende verifieerbare beloning. Voortbouwend op deze trainingsstrategie stellen we het Eerst-verkennen-dan-handelen paradigma voor, dat het verzamelen van informatie ontkoppelt van taakuitvoering: agenten gebruiken eerst een interactiebudget om gefundeerde omgevingskennis te verwerven en benutten deze vervolgens voor taakoplossing. Onze resultaten tonen aan dat het leren van systematisch verkennen noodzakelijk is voor het bouwen van generaliseerbare en praktijkrijpe agenten.

English

Large language model based agents often fail in unfamiliar environments due to premature exploitation: a tendency to act on prior knowledge before acquiring sufficient environment-specific information. We identify autonomous exploration as a critical yet underexplored capability for building adaptive agents. To formalize and quantify this capability, we introduce Exploration Checkpoint Coverage, a verifiable metric that measures how broadly an agent discovers key states, objects, and affordances. Our systematic evaluation reveals that agents trained with standard task-oriented reinforcement learning consistently exhibit narrow and repetitive behaviors that impede downstream performance. To address this limitation, we develop a training strategy that interleaves task-execution rollouts and exploration rollouts, with each type of rollout optimized by its corresponding verifiable reward. Building on this training strategy, we propose the Explore-then-Act paradigm, which decouples information-gathering from task execution: agents first utilize an interaction budget to acquire grounded environmental knowledge, then leverage it for task resolution. Our results demonstrate that learning to systematically explore is imperative for building generalizable and real-world-ready agents.