Aprendizaje de Robots Lúdicos y con Agencia

Resumen

Los sistemas robóticos agentivos actuales pueden escribir programas ejecutables de Código como Política, observar retroalimentación y revisar el comportamiento en múltiples intentos, pero siguen siendo en gran medida impulsados por tareas: las habilidades reutilizables se adquieren solo después de instrucciones explícitas. Estudiamos el Aprendizaje Robótico Agentivo Lúdico, donde un agente de codificación incorporado utiliza el juego autodirigido como una etapa continua de aprendizaje de habilidades antes de que lleguen las tareas posteriores. Presentamos RATs, Equipos de Robots Agentes diseñados para la adquisición de habilidades durante el juego. Durante el juego, RATs propone tareas exploratorias novedosas pero aprendibles, planifica y ejecuta políticas de código robótico, verifica el progreso intermedio, diagnostica fallos, reintenta con retroalimentación densa a nivel de paso y destila las ejecuciones exitosas en una biblioteca persistente de habilidades de código. En el momento de la prueba, el agente reutiliza habilidades relevantes de esta biblioteca congelada para ayudar a resolver nuevas tareas. Los experimentos en LIBERO-PRO y MolmoSpaces muestran que las habilidades aprendidas mediante el juego mejoran las tareas posteriores no vistas en comparación con las líneas base sin juego y con juego aleatorio, con ganancias de 20,6 y 17,0 puntos porcentuales sobre CaP-Agent0 en LIBERO-PRO y MolmoSpaces, respectivamente. Además, las habilidades aprendidas pueden integrarse en otros agentes de Código como Política en tiempo de inferencia simplemente recuperándolas en el contexto, mejorando la transferencia en RoboSuite y en el mundo real en 8,9 y 8,8 puntos, respectivamente, sin ajustar fino el modelo subyacente.

English

Current agentic robot systems can write executable Code-as-Policy programs, observe feedback, and revise behavior across multiple attempts, but they remain largely task-driven: reusable skills are acquired only after explicit instructions. We study Playful Agentic Robot Learning, where an embodied coding agent uses self-directed play as a continual skill-learning stage before downstream tasks arrive. We introduce RATs, Robotics Agent Teams designed for play-time skill acquisition. During play, RATs proposes novel yet learnable exploratory tasks, plans and executes robot-code policies, verifies intermediate progress, diagnoses failures, retries with dense, step-level feedback, and distills successful executions into a persistent code skill library. At test time, the agent reuses relevant skills from this frozen library to help solve new tasks. Experiments in LIBERO-PRO and MolmoSpaces show that play-learned skills improve held-out downstream tasks over no-play and random-play baselines, with 20.6 and 17.0 percentage-point gains over CaP-Agent0 on LIBERO-PRO and MolmoSpaces, respectively. Moreover, the learned skills can be plugged into other inference-time Code-as-Policy agents by simply retrieving them into the context, improving RoboSuite and real-world transfer by 8.9 and 8.8 points, respectively, without finetuning the underlying model.