Apprentissage robotique ludique et agentique

Résumé

Les systèmes robotiques agentifs actuels peuvent écrire des programmes Code-as-Policy exécutables, observer des retours et réviser leur comportement au fil de plusieurs tentatives, mais ils restent largement guidés par des tâches : les compétences réutilisables ne sont acquises qu’après des instructions explicites. Nous étudions l’apprentissage robotique agentif par le jeu (Playful Agentic Robot Learning), où un agent de codage incarné utilise un jeu autodirigé comme étape d’apprentissage continu de compétences avant que les tâches ultérieures n’arrivent. Nous introduisons RATs, des équipes d’agents robotiques conçues pour l’acquisition de compétences pendant le jeu. Durant le jeu, RATs propose des tâches exploratoires nouvelles mais apprenables, planifie et exécute des politiques de code robotique, vérifie les progrès intermédiaires, diagnostique les échecs, réessaie avec un retour dense au niveau des étapes, et distille les exécutions réussies en une bibliothèque persistante de compétences de code. Au moment du test, l’agent réutilise les compétences pertinentes de cette bibliothèque figée pour aider à résoudre de nouvelles tâches. Les expériences sur LIBERO-PRO et MolmoSpaces montrent que les compétences apprises par le jeu améliorent les tâches ultérieures mises de côté par rapport aux références sans jeu et avec jeu aléatoire, avec des gains de 20,6 et 17,0 points de pourcentage par rapport à CaP-Agent0 sur LIBERO-PRO et MolmoSpaces respectivement. De plus, les compétences apprises peuvent être intégrées dans d’autres agents Code-as-Policy en inférence en les récupérant simplement dans le contexte, améliorant le transfert sur RoboSuite et dans le monde réel de 8,9 et 8,8 points respectivement, sans ajuster le modèle sous-jacent.

English

Current agentic robot systems can write executable Code-as-Policy programs, observe feedback, and revise behavior across multiple attempts, but they remain largely task-driven: reusable skills are acquired only after explicit instructions. We study Playful Agentic Robot Learning, where an embodied coding agent uses self-directed play as a continual skill-learning stage before downstream tasks arrive. We introduce RATs, Robotics Agent Teams designed for play-time skill acquisition. During play, RATs proposes novel yet learnable exploratory tasks, plans and executes robot-code policies, verifies intermediate progress, diagnoses failures, retries with dense, step-level feedback, and distills successful executions into a persistent code skill library. At test time, the agent reuses relevant skills from this frozen library to help solve new tasks. Experiments in LIBERO-PRO and MolmoSpaces show that play-learned skills improve held-out downstream tasks over no-play and random-play baselines, with 20.6 and 17.0 percentage-point gains over CaP-Agent0 on LIBERO-PRO and MolmoSpaces, respectively. Moreover, the learned skills can be plugged into other inference-time Code-as-Policy agents by simply retrieving them into the context, improving RoboSuite and real-world transfer by 8.9 and 8.8 points, respectively, without finetuning the underlying model.