Harnais continu : Adaptation en ligne pour des agents fondamentaux auto-améliorants

Résumé

Des harnais de codage tels que Claude Code et OpenHands enrichissent les modèles fondamentaux avec des outils, de la mémoire et une planification, mais il n'existe pas d'équivalent pour la prise de décision partiellement observable sur de longs horizons des agents incarnés. Nous présentons d'abord nos expériences Gemini Plays Pokemon (GPP). Grâce à un raffinement itératif du harnais avec intervention humaine, GPP est devenu le premier système d'IA à terminer Pokemon Blue, Yellow Legacy en mode difficile, et Crystal sans perdre un seul combat. Dans les étapes les plus difficiles, l'agent lui-même a commencé à itérer sur sa stratégie via une mémoire à long contexte, faisant apparaître des signaux d'auto-amélioration émergents parallèlement au raffinement avec intervention humaine. Continual Harness supprime complètement l'humain de cette boucle : un harnais auto-améliorant sans réinitialisation pour agents incarnés, qui formalise et automatise ce que nous avons observé. Partant d'une interface environnementale minimale, l'agent alterne entre l'action et le raffinement de sa propre invite, de ses sous-agents, de ses compétences et de sa mémoire, en puisant dans les trajectoires passées. Les méthodes d'optimisation d'invite nécessitent des réinitialisations d'épisodes ; Continual Harness s'adapte en ligne au sein d'une même exécution. Sur Pokemon Red et Emerald, avec des modèles de pointe, Continual Harness, démarrant de zéro, réduit considérablement le coût d'appui sur les touches par rapport à la ligne de base minimaliste et récupère une grande partie de l'écart avec un harnais expert conçu manuellement, avec des gains dépendant des capacités, bien qu'il parte de la même interface brute, sans connaissances organisées, sans outils artisanaux et sans échafaudage domaine. Nous bouclons ensuite la boucle avec le modèle lui-même : une boucle de co-apprentissage processus-récompense en ligne, dans laquelle les déploiements d'un agent open source à travers le harnais de raffinement sont ré-étiquetés par un professeur de pointe et utilisés pour mettre à jour le modèle, ce qui entraîne une progression soutenue des jalons dans le jeu sur Pokemon Red sans réinitialiser l'environnement entre les itérations d'entraînement.

English

Coding harnesses such as Claude Code and OpenHands wrap foundation models with tools, memory, and planning, but no equivalent exists for embodied agents' long-horizon partial-observability decision-making. We first report our Gemini Plays Pokemon (GPP) experiments. With iterative human-in-the-loop harness refinement, GPP became the first AI system to complete Pokemon Blue, Yellow Legacy on hard mode, and Crystal without a lost battle. In the hardest stages, the agent itself began iterating on its strategy through long-context memory, surfacing emergent self-improvement signals alongside human-in-the-loop refinement. Continual Harness removes the human fully from this loop: a reset-free self-improving harness for embodied agents that formalizes and automates what we observed. Starting from only a minimal environment interface, the agent alternates between acting and refining its own prompt, sub-agents, skills, and memory, drawing on any past trajectory data. Prompt-optimization methods require episode resets; Continual Harness adapts online within a single run. On Pokemon Red and Emerald across frontier models, Continual Harness starting from scratch substantially reduces button-press cost relative to the minimalist baseline and recovers a majority of the gap to a hand-engineered expert harness, with capability-dependent gains, despite starting from the same raw interface with no curated knowledge, no hand-crafted tools, and no domain scaffolding. We then close the loop with the model itself: an online process-reward co-learning loop, in which an open-source agent's rollouts through the refining harness are relabeled by a frontier teacher and used to update the model, drives sustained in-game milestone progress on Pokemon Red without resetting the environment between training iterations.

Harnais continu : Adaptation en ligne pour des agents fondamentaux auto-améliorants

Continual Harness: Online Adaptation for Self-Improving Foundation Agents

Résumé

Support