RLDG: Destilação de Política Robótica Generalista via Aprendizado por Reforço

Resumo

Avanços recentes em modelos fundamentais de robótica têm possibilitado o desenvolvimento de políticas generalistas que podem se adaptar a diversas tarefas. Embora esses modelos demonstrem uma flexibilidade impressionante, seu desempenho depende fortemente da qualidade dos dados de treinamento. Neste trabalho, propomos Generalistas Destilados por Aprendizado por Reforço (RLDG), um método que utiliza aprendizado por reforço para gerar dados de treinamento de alta qualidade para ajustar políticas generalistas. Através de experimentos extensivos no mundo real em tarefas de manipulação precisa, como inserção de conectores e montagem, demonstramos que políticas generalistas treinadas com dados gerados por RL superam consistentemente aquelas treinadas com demonstrações humanas, alcançando taxas de sucesso até 40% mais altas, enquanto generalizam melhor para novas tarefas. Também fornecemos uma análise detalhada que revela que esse ganho de desempenho decorre tanto de distribuições de ação otimizadas quanto de uma cobertura de estados aprimorada. Nossos resultados sugerem que a combinação de RL específico para tarefas com destilação de políticas generalistas oferece uma abordagem promissora para o desenvolvimento de sistemas de manipulação robótica mais capazes e eficientes, que mantêm a flexibilidade dos modelos fundamentais ao mesmo tempo em que alcançam o desempenho de controladores especializados. Vídeos e código podem ser encontrados em nosso site do projeto https://generalist-distillation.github.io

English

Recent advances in robotic foundation models have enabled the development of generalist policies that can adapt to diverse tasks. While these models show impressive flexibility, their performance heavily depends on the quality of their training data. In this work, we propose Reinforcement Learning Distilled Generalists (RLDG), a method that leverages reinforcement learning to generate high-quality training data for finetuning generalist policies. Through extensive real-world experiments on precise manipulation tasks like connector insertion and assembly, we demonstrate that generalist policies trained with RL-generated data consistently outperform those trained with human demonstrations, achieving up to 40% higher success rates while generalizing better to new tasks. We also provide a detailed analysis that reveals this performance gain stems from both optimized action distributions and improved state coverage. Our results suggest that combining task-specific RL with generalist policy distillation offers a promising approach for developing more capable and efficient robotic manipulation systems that maintain the flexibility of foundation models while achieving the performance of specialized controllers. Videos and code can be found on our project website https://generalist-distillation.github.io

RLDG: Destilação de Política Robótica Generalista via Aprendizado por Reforço

RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

Resumo

Support