Aprovechamiento Continuo: Adaptación en Línea para Agentes Fundacionales Automejorables

Resumen

Plataformas de codificación como Claude Code y OpenHands envuelven modelos fundacionales con herramientas, memoria y planificación, pero no existe un equivalente para la toma de decisiones con observabilidad parcial y horizonte largo de agentes encarnados. Primero, reportamos nuestros experimentos de Gemini Plays Pokémon (GPP). Con un refinamiento iterativo de la plataforma con intervención humana en el bucle, GPP se convirtió en el primer sistema de IA en completar Pokémon Blue, Yellow Legacy en modo difícil y Crystal sin perder una batalla. En las etapas más difíciles, el propio agente comenzó a iterar sobre su estrategia mediante memoria de contexto largo, revelando señales emergentes de automejora junto con el refinamiento con intervención humana. Continual Harness elimina por completo al humano de este bucle: una plataforma de automejora sin reinicios para agentes encarnados que formaliza y automatiza lo que observamos. Partiendo únicamente de una interfaz mínima del entorno, el agente alterna entre actuar y refinar su propia instrucción, subagentes, habilidades y memoria, aprovechando cualquier dato de trayectorias pasadas. Los métodos de optimización de instrucciones requieren reinicios de episodios; Continual Harness se adapta en línea dentro de una sola ejecución. En Pokémon Red y Emerald con modelos de frontera, Continual Harness, partiendo desde cero, reduce sustancialmente el coste de pulsaciones de botones en comparación con la línea base minimalista y recupera la mayor parte de la brecha respecto a una plataforma experta diseñada manualmente, con ganancias dependientes de la capacidad, a pesar de partir de la misma interfaz sin información seleccionada, herramientas artesanales ni andamiaje de dominio. Luego cerramos el bucle con el propio modelo: un bucle de co-aprendizaje en línea de proceso y recompensa, en el que los rollouts de un agente de código abierto a través de la plataforma de refinamiento son reetiquetados por un profesor de frontera y utilizados para actualizar el modelo, impulsando un progreso sostenido en hitos del juego en Pokémon Red sin reiniciar el entorno entre iteraciones de entrenamiento.

English

Coding harnesses such as Claude Code and OpenHands wrap foundation models with tools, memory, and planning, but no equivalent exists for embodied agents' long-horizon partial-observability decision-making. We first report our Gemini Plays Pokemon (GPP) experiments. With iterative human-in-the-loop harness refinement, GPP became the first AI system to complete Pokemon Blue, Yellow Legacy on hard mode, and Crystal without a lost battle. In the hardest stages, the agent itself began iterating on its strategy through long-context memory, surfacing emergent self-improvement signals alongside human-in-the-loop refinement. Continual Harness removes the human fully from this loop: a reset-free self-improving harness for embodied agents that formalizes and automates what we observed. Starting from only a minimal environment interface, the agent alternates between acting and refining its own prompt, sub-agents, skills, and memory, drawing on any past trajectory data. Prompt-optimization methods require episode resets; Continual Harness adapts online within a single run. On Pokemon Red and Emerald across frontier models, Continual Harness starting from scratch substantially reduces button-press cost relative to the minimalist baseline and recovers a majority of the gap to a hand-engineered expert harness, with capability-dependent gains, despite starting from the same raw interface with no curated knowledge, no hand-crafted tools, and no domain scaffolding. We then close the loop with the model itself: an online process-reward co-learning loop, in which an open-source agent's rollouts through the refining harness are relabeled by a frontier teacher and used to update the model, drives sustained in-game milestone progress on Pokemon Red without resetting the environment between training iterations.

Aprovechamiento Continuo: Adaptación en Línea para Agentes Fundacionales Automejorables

Continual Harness: Online Adaptation for Self-Improving Foundation Agents

Resumen

Support