Kontinuierliche Nutzung: Online-Adaption für selbstverbessernde Foundation-Agenten

Zusammenfassung

Programmier-Harnesses wie Claude Code und OpenHands statten Foundation Models mit Werkzeugen, Speicher und Planungsfähigkeiten aus, doch für die Entscheidungsfindung verkörperter Agenten mit langem Horizont und partieller Beobachtbarkeit existiert kein Äquivalent. Wir berichten zunächst über unsere Gemini Plays Pokemon (GPP)-Experimente. Durch iterative Mensch-im-Kreislauf-Harness-Verfeinerung wurde GPP zum ersten KI-System, das Pokemon Blue, Pokemon Yellow Legacy im Schwierigkeitsgrad „Hard" und Pokemon Crystal ohne eine einzige verlorene Schlacht absolvierte. In den schwierigsten Phasen begann der Agent selbst, seine Strategie durch Langzeitkontextspeicher iterativ zu verbessern, wobei neben der Mensch-im-Kreislauf-Verfeinerung emergente Selbstverbesserungssignale auftraten. Continual Harness entfernt den Menschen vollständig aus diesem Kreislauf: ein rücksetzungsfreies, sich selbst verbesserndes Harness für verkörperte Agenten, das unsere Beobachtungen formalisiert und automatisiert. Ausgehend von einer minimalen Umgebungsschnittstelle wechselt der Agent zwischen Aktion und Verfeinerung seines eigenen Prompts, seiner Sub-Agenten, Fähigkeiten und seines Gedächtnisses und greift dabei auf alle bisherigen Trajektoriendaten zurück. Prompt-Optimierungsmethoden erfordern Episoden-Rücksetzungen; Continual Harness passt sich online innerhalb eines einzigen Durchlaufs an. Auf Pokemon Red und Emerald mit verschiedenen Frontier-Modellen reduziert Continual Harness, von Grund auf startend, die Tastendruckkosten im Vergleich zur minimalistischen Baseline erheblich und schließt den Großteil der Lücke zu einem handgefertigten Experten-Harness – mit fähigkeitsabhängigen Gewinnen –, obwohl es von derselben rohen Schnittstelle ohne kuratiertes Wissen, ohne handgefertigte Werkzeuge und ohne domänenspezifisches Gerüst ausgeht. Anschließend schließen wir den Kreislauf mit dem Modell selbst: eine Online-Prozess-Belohnungs-Co-Learning-Schleife, in der die Rollouts eines Open-Source-Agenten durch das verfeinernde Harness von einem Frontier-Lehrermodell neu beschriftet und zur Aktualisierung des Modells verwendet werden, treibt nachhaltige Fortschritte bei den In-Game-Meilensteinen auf Pokemon Red voran, ohne die Umgebung zwischen den Trainingsiterationen zurückzusetzen.

English

Coding harnesses such as Claude Code and OpenHands wrap foundation models with tools, memory, and planning, but no equivalent exists for embodied agents' long-horizon partial-observability decision-making. We first report our Gemini Plays Pokemon (GPP) experiments. With iterative human-in-the-loop harness refinement, GPP became the first AI system to complete Pokemon Blue, Yellow Legacy on hard mode, and Crystal without a lost battle. In the hardest stages, the agent itself began iterating on its strategy through long-context memory, surfacing emergent self-improvement signals alongside human-in-the-loop refinement. Continual Harness removes the human fully from this loop: a reset-free self-improving harness for embodied agents that formalizes and automates what we observed. Starting from only a minimal environment interface, the agent alternates between acting and refining its own prompt, sub-agents, skills, and memory, drawing on any past trajectory data. Prompt-optimization methods require episode resets; Continual Harness adapts online within a single run. On Pokemon Red and Emerald across frontier models, Continual Harness starting from scratch substantially reduces button-press cost relative to the minimalist baseline and recovers a majority of the gap to a hand-engineered expert harness, with capability-dependent gains, despite starting from the same raw interface with no curated knowledge, no hand-crafted tools, and no domain scaffolding. We then close the loop with the model itself: an online process-reward co-learning loop, in which an open-source agent's rollouts through the refining harness are relabeled by a frontier teacher and used to update the model, drives sustained in-game milestone progress on Pokemon Red without resetting the environment between training iterations.

Kontinuierliche Nutzung: Online-Adaption für selbstverbessernde Foundation-Agenten

Continual Harness: Online Adaptation for Self-Improving Foundation Agents

Zusammenfassung

Support