ChatPaper.aiChatPaper

Aprendizagem Lúdica de Robôs com Agência

Playful Agentic Robot Learning

June 17, 2026
Autores: Junyi Zhang, Jiaxin Ge, Hanjun Yoo, Letian Fu, Zihan Yang, Yaowei Liu, Raj Saravanan, Shaofeng Yin, Justin Yu, Dantong Niu, Zirui Wang, Roei Herzig, Ken Goldberg, Yutong Bai, David M. Chan, Ion Stoica, Angjoo Kanazawa, Jiahui Lei, Haiwen Feng, Trevor Darrell
cs.AI

Resumo

Os sistemas robóticos agentes atuais podem escrever programas executáveis do tipo Código-como-Política, observar feedback e revisar o comportamento ao longo de múltiplas tentativas, mas ainda são amplamente orientados por tarefas: habilidades reutilizáveis são adquiridas apenas após instruções explícitas. Estudamos a Aprendizagem Robótica Agêntica Lúdica, na qual um agente de codificação incorporado utiliza a brincadeira autodirigida como um estágio contínuo de aprendizado de habilidades antes que tarefas posteriores cheguem. Apresentamos as RATs, Equipes de Agentes Robóticos projetadas para a aquisição de habilidades durante a brincadeira. Durante a brincadeira, as RATs propõem tarefas exploratórias novas e aprendíveis, planejam e executam políticas de código robótico, verificam o progresso intermediário, diagnosticam falhas, tentam novamente com feedback denso em nível de etapa e destilam execuções bem-sucedidas em uma biblioteca persistente de habilidades de código. No momento do teste, o agente reutiliza habilidades relevantes dessa biblioteca congelada para ajudar a resolver novas tarefas. Experimentos no LIBERO-PRO e no MolmoSpaces mostram que habilidades aprendidas por brincadeira melhoram tarefas posteriores não vistas em relação às linhas de base sem brincadeira e com brincadeira aleatória, com ganhos de 20,6 e 17,0 pontos percentuais sobre o CaP-Agent0 no LIBERO-PRO e no MolmoSpaces, respectivamente. Além disso, as habilidades aprendidas podem ser inseridas em outros agentes de Código-como-Política em tempo de inferência, simplesmente recuperando-as no contexto, melhorando a transferência para o RoboSuite e para o mundo real em 8,9 e 8,8 pontos, respectivamente, sem ajuste fino do modelo subjacente.
English
Current agentic robot systems can write executable Code-as-Policy programs, observe feedback, and revise behavior across multiple attempts, but they remain largely task-driven: reusable skills are acquired only after explicit instructions. We study Playful Agentic Robot Learning, where an embodied coding agent uses self-directed play as a continual skill-learning stage before downstream tasks arrive. We introduce RATs, Robotics Agent Teams designed for play-time skill acquisition. During play, RATs proposes novel yet learnable exploratory tasks, plans and executes robot-code policies, verifies intermediate progress, diagnoses failures, retries with dense, step-level feedback, and distills successful executions into a persistent code skill library. At test time, the agent reuses relevant skills from this frozen library to help solve new tasks. Experiments in LIBERO-PRO and MolmoSpaces show that play-learned skills improve held-out downstream tasks over no-play and random-play baselines, with 20.6 and 17.0 percentage-point gains over CaP-Agent0 on LIBERO-PRO and MolmoSpaces, respectively. Moreover, the learned skills can be plugged into other inference-time Code-as-Policy agents by simply retrieving them into the context, improving RoboSuite and real-world transfer by 8.9 and 8.8 points, respectively, without finetuning the underlying model.