Непрерывный механизм: онлайн-адаптация для самосовершенствующихся фундаментальных агентов

Аннотация

Программные обвязки типа Claude Code и OpenHands снабжают фундаментальные модели инструментами, памятью и планированием, однако аналогичного решения для принятия решений воплощёнными агентами в условиях частичной наблюдаемости и длинного горизонта не существует. Сначала мы сообщаем о наших экспериментах Gemini Plays Pokemon (GPP). Благодаря итеративному уточнению обвязки с участием человека (human-in-the-loop) GPP стала первой системой ИИ, которая завершила прохождение Pokemon Blue, Yellow Legacy на сложном режиме и Crystal без единого проигранного боя. На самых сложных этапах сам агент начал итеративно пересматривать свою стратегию с помощью долгоконтекстной памяти, выявляя сигналы самоулучшения наряду с уточнением с участием человека. Continual Harness полностью исключает человека из этого цикла: это самоулучшающаяся обвязка для воплощённых агентов без сброса, которая формализует и автоматизирует наблюдаемые нами процессы. Начиная лишь с минимального интерфейса окружения, агент чередует действия и уточнение своего собственного промпта, под-агентов, навыков и памяти, используя любые данные прошлых траекторий. Методы оптимизации промптов требуют сброса эпизодов; Continual Harness адаптируется онлайн в рамках одного запуска. На Pokemon Red и Emerald с использованием передовых моделей (frontier models) Continual Harness, начиная с нуля, значительно снижает стоимость нажатий кнопок по сравнению с минималистичным базовым уровнем и покрывает большую часть разрыва до экспертной обвязки, созданной вручную, с приростами, зависящими от возможностей, несмотря на то, что исходный сырой интерфейс не содержит подобранных знаний, ручных инструментов и предметной поддержки (domain scaffolding). Затем мы замыкаем цикл на самой модели: онлайн-цикл совместного обучения процессу и вознаграждению, в котором развёртывания (rollouts) агента с открытым исходным кодом через уточняющую обвязку перемаркируются учителем на основе передовой модели и используются для обновления самой модели. Это обеспечивает устойчивый прогресс в достижении внутриигровых этапов в Pokemon Red без сброса окружения между учебными итерациями.

English

Coding harnesses such as Claude Code and OpenHands wrap foundation models with tools, memory, and planning, but no equivalent exists for embodied agents' long-horizon partial-observability decision-making. We first report our Gemini Plays Pokemon (GPP) experiments. With iterative human-in-the-loop harness refinement, GPP became the first AI system to complete Pokemon Blue, Yellow Legacy on hard mode, and Crystal without a lost battle. In the hardest stages, the agent itself began iterating on its strategy through long-context memory, surfacing emergent self-improvement signals alongside human-in-the-loop refinement. Continual Harness removes the human fully from this loop: a reset-free self-improving harness for embodied agents that formalizes and automates what we observed. Starting from only a minimal environment interface, the agent alternates between acting and refining its own prompt, sub-agents, skills, and memory, drawing on any past trajectory data. Prompt-optimization methods require episode resets; Continual Harness adapts online within a single run. On Pokemon Red and Emerald across frontier models, Continual Harness starting from scratch substantially reduces button-press cost relative to the minimalist baseline and recovers a majority of the gap to a hand-engineered expert harness, with capability-dependent gains, despite starting from the same raw interface with no curated knowledge, no hand-crafted tools, and no domain scaffolding. We then close the loop with the model itself: an online process-reward co-learning loop, in which an open-source agent's rollouts through the refining harness are relabeled by a frontier teacher and used to update the model, drives sustained in-game milestone progress on Pokemon Red without resetting the environment between training iterations.

Непрерывный механизм: онлайн-адаптация для самосовершенствующихся фундаментальных агентов

Continual Harness: Online Adaptation for Self-Improving Foundation Agents

Аннотация

Support