Regarder avant de sauter : Exploration autonome pour les agents LLM

Résumé

Les agents basés sur de grands modèles de langage échouent souvent dans des environnements inconnus en raison d'une exploitation prématurée : une tendance à agir sur la base de connaissances préalables avant d'avoir acquis suffisamment d'informations spécifiques à l'environnement. Nous identifions l'exploration autonome comme une capacité critique mais encore sous-explorée pour construire des agents adaptatifs. Pour formaliser et quantifier cette capacité, nous introduisons l'Exploration Checkpoint Coverage (couverture de points de contrôle d'exploration), une métrique vérifiable qui mesure l'étendue avec laquelle un agent découvre des états, objets et affordances clés. Notre évaluation systématique révèle que les agents entraînés avec un apprentissage par renforcement standard orienté tâche présentent systématiquement des comportements étroits et répétitifs qui entravent les performances en aval. Pour remédier à cette limitation, nous développons une stratégie d'entraînement qui entrelace les déploiements d'exécution de tâches et les déploiements d'exploration, chaque type de déploiement étant optimisé par sa récompense vérifiable correspondante. En nous appuyant sur cette stratégie d'entraînement, nous proposons le paradigme Explore-then-Act (Explorer puis Agir), qui dissocie la collecte d'informations de l'exécution de tâches : les agents utilisent d'abord un budget d'interaction pour acquérir des connaissances environnementales incarnées, puis les exploitent pour résoudre des tâches. Nos résultats démontrent qu'apprendre à explorer systématiquement est impératif pour construire des agents généralisables et prêts pour le monde réel.

English

Large language model based agents often fail in unfamiliar environments due to premature exploitation: a tendency to act on prior knowledge before acquiring sufficient environment-specific information. We identify autonomous exploration as a critical yet underexplored capability for building adaptive agents. To formalize and quantify this capability, we introduce Exploration Checkpoint Coverage, a verifiable metric that measures how broadly an agent discovers key states, objects, and affordances. Our systematic evaluation reveals that agents trained with standard task-oriented reinforcement learning consistently exhibit narrow and repetitive behaviors that impede downstream performance. To address this limitation, we develop a training strategy that interleaves task-execution rollouts and exploration rollouts, with each type of rollout optimized by its corresponding verifiable reward. Building on this training strategy, we propose the Explore-then-Act paradigm, which decouples information-gathering from task execution: agents first utilize an interaction budget to acquire grounded environmental knowledge, then leverage it for task resolution. Our results demonstrate that learning to systematically explore is imperative for building generalizable and real-world-ready agents.