Speels Agentisch Robotleren

Samenvatting

Huidige agentische robotsystemen kunnen uitvoerbare Code-as-Policy-programma's schrijven, feedback observeren en gedrag over meerdere pogingen heen herzien, maar ze blijven grotendeels taakgedreven: herbruikbare vaardigheden worden pas verworven na expliciete instructies. Wij bestuderen Speelse Agentische Robotleer, waarbij een belichaamde codeeragent zelfgestuurd spel gebruikt als een continue vaardigheidsleerfase voordat stroomafwaartse taken arriveren. We introduceren RAT's, Robotic Agent Teams ontworpen voor het verwerven van vaardigheden tijdens spel. Tijdens het spel stelt RAT's nieuwe maar leerbare verkennende taken voor, plant en voert robot-codebeleid uit, verifieert tussentijdse voortgang, diagnosticeert fouten, probeert het opnieuw met dichte, stapsgewijze feedback, en distilleert succesvolle uitvoeringen tot een permanente codevaardigheidsbibliotheek. Tijdens de testfase hergebruikt de agent relevante vaardigheden uit deze bevroren bibliotheek om nieuwe taken op te lossen. Experimenten in LIBERO-PRO en MolmoSpaces tonen aan dat via spel geleerde vaardigheden de prestaties op niet-geziene stroomafwaartse taken verbeteren in vergelijking met basislijnen zonder spel en met willekeurig spel, met respectievelijk 20,6 en 17,0 procentpuntenwinst ten opzichte van CaP-Agent0 op LIBERO-PRO en MolmoSpaces. Bovendien kunnen de geleerde vaardigheden worden ingepast in andere Code-as-Policy-agenten tijdens de inferentie door ze simpelweg in de context op te halen, wat resulteert in een verbetering van respectievelijk 8,9 en 8,8 punten voor RoboSuite en overdracht naar de echte wereld, zonder het onderliggende model te fine-tunen.

English

Current agentic robot systems can write executable Code-as-Policy programs, observe feedback, and revise behavior across multiple attempts, but they remain largely task-driven: reusable skills are acquired only after explicit instructions. We study Playful Agentic Robot Learning, where an embodied coding agent uses self-directed play as a continual skill-learning stage before downstream tasks arrive. We introduce RATs, Robotics Agent Teams designed for play-time skill acquisition. During play, RATs proposes novel yet learnable exploratory tasks, plans and executes robot-code policies, verifies intermediate progress, diagnoses failures, retries with dense, step-level feedback, and distills successful executions into a persistent code skill library. At test time, the agent reuses relevant skills from this frozen library to help solve new tasks. Experiments in LIBERO-PRO and MolmoSpaces show that play-learned skills improve held-out downstream tasks over no-play and random-play baselines, with 20.6 and 17.0 percentage-point gains over CaP-Agent0 on LIBERO-PRO and MolmoSpaces, respectively. Moreover, the learned skills can be plugged into other inference-time Code-as-Policy agents by simply retrieving them into the context, improving RoboSuite and real-world transfer by 8.9 and 8.8 points, respectively, without finetuning the underlying model.