Olhe Antes de Pular: Exploração Autônoma para Agentes de LLM

Resumo

Agentes baseados em modelos de linguagem de grande escala frequentemente falham em ambientes desconhecidos devido à exploração prematura: uma tendência a agir com base em conhecimento prévio antes de adquirir informações suficientes específicas do ambiente. Identificamos a exploração autônoma como uma capacidade crítica, porém subexplorada, para construir agentes adaptativos. Para formalizar e quantificar essa capacidade, introduzimos a Cobertura de Pontos de Verificação de Exploração, uma métrica verificável que mede quão amplamente um agente descobre estados, objetos e affordances-chave. Nossa avaliação sistemática revela que agentes treinados com aprendizado por reforço padrão orientado a tarefas exibem consistentemente comportamentos estreitos e repetitivos que prejudicam o desempenho downstream. Para abordar essa limitação, desenvolvemos uma estratégia de treinamento que intercala execuções de tarefas e explorações, com cada tipo de execução otimizado por sua recompensa verificável correspondente. Com base nessa estratégia de treinamento, propomos o paradigma Explorar-depois-Agir, que desacopla a coleta de informações da execução de tarefas: os agentes primeiro utilizam um orçamento de interação para adquirir conhecimento ambiental fundamentado e, em seguida, o aproveitam para a resolução de tarefas. Nossos resultados demonstram que aprender a explorar sistematicamente é imperativo para construir agentes generalizáveis e prontos para o mundo real.

English

Large language model based agents often fail in unfamiliar environments due to premature exploitation: a tendency to act on prior knowledge before acquiring sufficient environment-specific information. We identify autonomous exploration as a critical yet underexplored capability for building adaptive agents. To formalize and quantify this capability, we introduce Exploration Checkpoint Coverage, a verifiable metric that measures how broadly an agent discovers key states, objects, and affordances. Our systematic evaluation reveals that agents trained with standard task-oriented reinforcement learning consistently exhibit narrow and repetitive behaviors that impede downstream performance. To address this limitation, we develop a training strategy that interleaves task-execution rollouts and exploration rollouts, with each type of rollout optimized by its corresponding verifiable reward. Building on this training strategy, we propose the Explore-then-Act paradigm, which decouples information-gathering from task execution: agents first utilize an interaction budget to acquire grounded environmental knowledge, then leverage it for task resolution. Our results demonstrate that learning to systematically explore is imperative for building generalizable and real-world-ready agents.