Mira antes de saltar: Exploración autónoma para agentes LLM

Resumen

Los agentes basados en grandes modelos lingüísticos suelen fallar en entornos desconocidos debido a una explotación prematura: la tendencia a actuar basándose en conocimientos previos antes de adquirir suficiente información específica del entorno. Identificamos la exploración autónoma como una capacidad crítica pero poco explorada para construir agentes adaptativos. Para formalizar y cuantificar esta capacidad, introducimos la Cobertura de Puntos de Control de Exploración, una métrica verificable que mide cuán ampliamente un agente descubre estados, objetos y affordances clave. Nuestra evaluación sistemática revela que los agentes entrenados con aprendizaje por refuerzo estándar orientado a tareas muestran consistentemente comportamientos estrechos y repetitivos que perjudican el rendimiento posterior. Para abordar esta limitación, desarrollamos una estrategia de entrenamiento que intercala ejecuciones de tareas y ejecuciones de exploración, optimizando cada tipo de ejecución con su recompensa verificable correspondiente. Basándonos en esta estrategia de entrenamiento, proponemos el paradigma Explorar-luego-Actuar, que desacopla la recopilación de información de la ejecución de la tarea: los agentes primero utilizan un presupuesto de interacción para adquirir conocimiento fundamentado del entorno, y luego lo aprovechan para la resolución de la tarea. Nuestros resultados demuestran que aprender a explorar sistemáticamente es imprescindible para construir agentes generalizables y listos para el mundo real.

English

Large language model based agents often fail in unfamiliar environments due to premature exploitation: a tendency to act on prior knowledge before acquiring sufficient environment-specific information. We identify autonomous exploration as a critical yet underexplored capability for building adaptive agents. To formalize and quantify this capability, we introduce Exploration Checkpoint Coverage, a verifiable metric that measures how broadly an agent discovers key states, objects, and affordances. Our systematic evaluation reveals that agents trained with standard task-oriented reinforcement learning consistently exhibit narrow and repetitive behaviors that impede downstream performance. To address this limitation, we develop a training strategy that interleaves task-execution rollouts and exploration rollouts, with each type of rollout optimized by its corresponding verifiable reward. Building on this training strategy, we propose the Explore-then-Act paradigm, which decouples information-gathering from task execution: agents first utilize an interaction budget to acquire grounded environmental knowledge, then leverage it for task resolution. Our results demonstrate that learning to systematically explore is imperative for building generalizable and real-world-ready agents.