ChatPaper.aiChatPaper

RLDG: Robotische Generalist Policy Distillatie via Reinforcement Learning

RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

December 13, 2024
Auteurs: Charles Xu, Qiyang Li, Jianlan Luo, Sergey Levine
cs.AI

Samenvatting

Recente ontwikkelingen in robotische grondslagmodellen hebben de ontwikkeling van generalistische beleidslijnen mogelijk gemaakt die zich kunnen aanpassen aan diverse taken. Hoewel deze modellen indrukwekkende flexibiliteit tonen, is hun prestatie sterk afhankelijk van de kwaliteit van hun trainingsgegevens. In dit werk stellen we Reinforcement Learning Distilled Generalists (RLDG) voor, een methode die reinforcement learning benut om hoogwaardige trainingsgegevens te genereren voor het verfijnen van generalistische beleidslijnen. Door uitgebreide real-world experimenten op precieze manipulatietaken zoals connectorinvoeging en assemblage, tonen we aan dat generalistische beleidslijnen getraind met RL-generatie gegevens consequent beter presteren dan die getraind met menselijke demonstraties, met successpercentages tot wel 40% hoger en betere generalisatie naar nieuwe taken. We bieden ook een gedetailleerde analyse die aantoont dat deze prestatiewinst voortkomt uit zowel geoptimaliseerde actieverdelingen als verbeterde dekkingsgraad van de toestand. Onze resultaten suggereren dat het combineren van taakspecifieke RL met generalistische beleidslijndistillatie een veelbelovende aanpak biedt voor het ontwikkelen van meer capabele en efficiënte robotische manipulatiesystemen die de flexibiliteit van grondslagmodellen behouden terwijl ze de prestatie van gespecialiseerde controllers bereiken. Video's en code zijn te vinden op onze projectwebsite https://generalist-distillation.github.io
English
Recent advances in robotic foundation models have enabled the development of generalist policies that can adapt to diverse tasks. While these models show impressive flexibility, their performance heavily depends on the quality of their training data. In this work, we propose Reinforcement Learning Distilled Generalists (RLDG), a method that leverages reinforcement learning to generate high-quality training data for finetuning generalist policies. Through extensive real-world experiments on precise manipulation tasks like connector insertion and assembly, we demonstrate that generalist policies trained with RL-generated data consistently outperform those trained with human demonstrations, achieving up to 40% higher success rates while generalizing better to new tasks. We also provide a detailed analysis that reveals this performance gain stems from both optimized action distributions and improved state coverage. Our results suggest that combining task-specific RL with generalist policy distillation offers a promising approach for developing more capable and efficient robotic manipulation systems that maintain the flexibility of foundation models while achieving the performance of specialized controllers. Videos and code can be found on our project website https://generalist-distillation.github.io
PDF22December 18, 2024