Erst denken, dann handeln: Autonome Exploration für LLM-Agenten

Zusammenfassung

Sprachmodelle-basierte Agenten scheitern in unbekannten Umgebungen häufig an vorzeitiger Ausbeutung: der Tendenz, auf Grundlage von Vorwissen zu handeln, bevor ausreichend umgebungsspezifische Informationen erlangt wurden. Wir identifizieren autonome Exploration als eine kritische, jedoch unzureichend erforschte Fähigkeit zur Entwicklung adaptiver Agenten. Um diese Fähigkeit zu formalisieren und zu quantifizieren, führen wir den Exploration-Checkpoint-Coverage ein, eine überprüfbare Metrik, die misst, wie umfassend ein Agent Schlüsselzustände, Objekte und Affordanzen entdeckt. Unsere systematische Evaluierung zeigt, dass Agenten, die mit standardmäßigem aufgabenorientiertem Reinforcement Learning trainiert wurden, durchgängig eng fokussierte und repetitive Verhaltensweisen aufweisen, die die nachgelagerte Leistung beeinträchtigen. Um diese Einschränkung zu beheben, entwickeln wir eine Trainingsstrategie, die Aufgabenausführungs-Rollouts und Explorations-Rollouts verschränkt, wobei jeder Rollout-Typ durch seinen entsprechenden überprüfbaren Reward optimiert wird. Aufbauend auf dieser Trainingsstrategie schlagen wir das Erkunde-dann-Handle-Paradigma vor, das die Informationsgewinnung von der Aufgabenausführung entkoppelt: Agenten nutzen zunächst ein Interaktionsbudget, um fundiertes Umweltwissen zu erwerben, und setzen dieses dann zur Aufgabenlösung ein. Unsere Ergebnisse belegen, dass das Erlernen systematischer Exploration für die Entwicklung generalisierbarer und realitätsfähiger Agenten unabdingbar ist.

English

Large language model based agents often fail in unfamiliar environments due to premature exploitation: a tendency to act on prior knowledge before acquiring sufficient environment-specific information. We identify autonomous exploration as a critical yet underexplored capability for building adaptive agents. To formalize and quantify this capability, we introduce Exploration Checkpoint Coverage, a verifiable metric that measures how broadly an agent discovers key states, objects, and affordances. Our systematic evaluation reveals that agents trained with standard task-oriented reinforcement learning consistently exhibit narrow and repetitive behaviors that impede downstream performance. To address this limitation, we develop a training strategy that interleaves task-execution rollouts and exploration rollouts, with each type of rollout optimized by its corresponding verifiable reward. Building on this training strategy, we propose the Explore-then-Act paradigm, which decouples information-gathering from task execution: agents first utilize an interaction budget to acquire grounded environmental knowledge, then leverage it for task resolution. Our results demonstrate that learning to systematically explore is imperative for building generalizable and real-world-ready agents.