Прежде чем прыгнуть, оглянись: Автономное исследование для LLM-агентов

Аннотация

Агенты на основе больших языковых моделей часто терпят неудачу в незнакомых средах из-за преждевременной эксплуатации: склонности действовать на основе предварительных знаний до получения достаточной информации, специфичной для среды. Мы определяем автономное исследование как критически важную, но недостаточно изученную способность для построения адаптивных агентов. Чтобы формализовать и количественно оценить эту способность, мы вводим Exploration Checkpoint Coverage — проверяемую метрику, которая измеряет, насколько широко агент обнаруживает ключевые состояния, объекты и аффордансы. Наша систематическая оценка показывает, что агенты, обученные с помощью стандартного целеориентированного обучения с подкреплением, последовательно демонстрируют узкое и повторяющееся поведение, которое препятствует дальнейшей производительности. Для устранения этого ограничения мы разрабатываем стратегию обучения, которая чередует прогоны выполнения задач и исследовательские прогоны, причем каждый тип прогонов оптимизируется с помощью соответствующего проверяемого вознаграждения. Основываясь на этой стратегии обучения, мы предлагаем парадигму «Исследуй, затем действуй» (Explore-then-Act), которая разделяет сбор информации и выполнение задачи: агенты сначала используют бюджет взаимодействия для получения обоснованных знаний об окружающей среде, а затем используют их для решения задачи. Наши результаты демонстрируют, что обучение систематическому исследованию является обязательным для создания обобщаемых и готовых к работе в реальных условиях агентов.

English

Large language model based agents often fail in unfamiliar environments due to premature exploitation: a tendency to act on prior knowledge before acquiring sufficient environment-specific information. We identify autonomous exploration as a critical yet underexplored capability for building adaptive agents. To formalize and quantify this capability, we introduce Exploration Checkpoint Coverage, a verifiable metric that measures how broadly an agent discovers key states, objects, and affordances. Our systematic evaluation reveals that agents trained with standard task-oriented reinforcement learning consistently exhibit narrow and repetitive behaviors that impede downstream performance. To address this limitation, we develop a training strategy that interleaves task-execution rollouts and exploration rollouts, with each type of rollout optimized by its corresponding verifiable reward. Building on this training strategy, we propose the Explore-then-Act paradigm, which decouples information-gathering from task execution: agents first utilize an interaction budget to acquire grounded environmental knowledge, then leverage it for task resolution. Our results demonstrate that learning to systematically explore is imperative for building generalizable and real-world-ready agents.