Aprendizagem Lúdica de Robôs com Agência

Resumo

Os sistemas robóticos agentes atuais podem escrever programas executáveis do tipo Código-como-Política, observar feedback e revisar o comportamento ao longo de múltiplas tentativas, mas ainda são amplamente orientados por tarefas: habilidades reutilizáveis são adquiridas apenas após instruções explícitas. Estudamos a Aprendizagem Robótica Agêntica Lúdica, na qual um agente de codificação incorporado utiliza a brincadeira autodirigida como um estágio contínuo de aprendizado de habilidades antes que tarefas posteriores cheguem. Apresentamos as RATs, Equipes de Agentes Robóticos projetadas para a aquisição de habilidades durante a brincadeira. Durante a brincadeira, as RATs propõem tarefas exploratórias novas e aprendíveis, planejam e executam políticas de código robótico, verificam o progresso intermediário, diagnosticam falhas, tentam novamente com feedback denso em nível de etapa e destilam execuções bem-sucedidas em uma biblioteca persistente de habilidades de código. No momento do teste, o agente reutiliza habilidades relevantes dessa biblioteca congelada para ajudar a resolver novas tarefas. Experimentos no LIBERO-PRO e no MolmoSpaces mostram que habilidades aprendidas por brincadeira melhoram tarefas posteriores não vistas em relação às linhas de base sem brincadeira e com brincadeira aleatória, com ganhos de 20,6 e 17,0 pontos percentuais sobre o CaP-Agent0 no LIBERO-PRO e no MolmoSpaces, respectivamente. Além disso, as habilidades aprendidas podem ser inseridas em outros agentes de Código-como-Política em tempo de inferência, simplesmente recuperando-as no contexto, melhorando a transferência para o RoboSuite e para o mundo real em 8,9 e 8,8 pontos, respectivamente, sem ajuste fino do modelo subjacente.

English

Current agentic robot systems can write executable Code-as-Policy programs, observe feedback, and revise behavior across multiple attempts, but they remain largely task-driven: reusable skills are acquired only after explicit instructions. We study Playful Agentic Robot Learning, where an embodied coding agent uses self-directed play as a continual skill-learning stage before downstream tasks arrive. We introduce RATs, Robotics Agent Teams designed for play-time skill acquisition. During play, RATs proposes novel yet learnable exploratory tasks, plans and executes robot-code policies, verifies intermediate progress, diagnoses failures, retries with dense, step-level feedback, and distills successful executions into a persistent code skill library. At test time, the agent reuses relevant skills from this frozen library to help solve new tasks. Experiments in LIBERO-PRO and MolmoSpaces show that play-learned skills improve held-out downstream tasks over no-play and random-play baselines, with 20.6 and 17.0 percentage-point gains over CaP-Agent0 on LIBERO-PRO and MolmoSpaces, respectively. Moreover, the learned skills can be plugged into other inference-time Code-as-Policy agents by simply retrieving them into the context, improving RoboSuite and real-world transfer by 8.9 and 8.8 points, respectively, without finetuning the underlying model.