RLDG : Distillation de politique généraliste robotique via l'apprentissage par renforcement

papers.abstract

Les récents progrès dans les modèles fondamentaux de robotique ont permis le développement de politiques généralistes capables de s'adapter à diverses tâches. Bien que ces modèles montrent une flexibilité impressionnante, leurs performances dépendent fortement de la qualité de leurs données d'entraînement. Dans ce travail, nous proposons les Généralistes Distillés par Apprentissage par Renforcement (RLDG), une méthode qui exploite l'apprentissage par renforcement pour générer des données d'entraînement de haute qualité pour le peaufinage des politiques généralistes. À travers des expériences approfondies dans le monde réel sur des tâches de manipulation précises telles que l'insertion de connecteurs et l'assemblage, nous démontrons que les politiques généralistes entraînées avec des données générées par RL surpassent de manière constante celles entraînées avec des démonstrations humaines, atteignant des taux de réussite jusqu'à 40% plus élevés tout en généralisant mieux à de nouvelles tâches. Nous fournissons également une analyse détaillée qui révèle que ce gain de performance provient à la fois de distributions d'actions optimisées et d'une meilleure couverture d'états. Nos résultats suggèrent que la combinaison de l'apprentissage par renforcement spécifique à la tâche avec la distillation de politiques généralistes offre une approche prometteuse pour le développement de systèmes de manipulation robotique plus capables et efficaces, tout en conservant la flexibilité des modèles fondamentaux tout en atteignant les performances des contrôleurs spécialisés. Les vidéos et le code sont disponibles sur notre site web de projet https://generalist-distillation.github.io

English

Recent advances in robotic foundation models have enabled the development of generalist policies that can adapt to diverse tasks. While these models show impressive flexibility, their performance heavily depends on the quality of their training data. In this work, we propose Reinforcement Learning Distilled Generalists (RLDG), a method that leverages reinforcement learning to generate high-quality training data for finetuning generalist policies. Through extensive real-world experiments on precise manipulation tasks like connector insertion and assembly, we demonstrate that generalist policies trained with RL-generated data consistently outperform those trained with human demonstrations, achieving up to 40% higher success rates while generalizing better to new tasks. We also provide a detailed analysis that reveals this performance gain stems from both optimized action distributions and improved state coverage. Our results suggest that combining task-specific RL with generalist policy distillation offers a promising approach for developing more capable and efficient robotic manipulation systems that maintain the flexibility of foundation models while achieving the performance of specialized controllers. Videos and code can be found on our project website https://generalist-distillation.github.io

RLDG : Distillation de politique généraliste robotique via l'apprentissage par renforcement

RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

papers.abstract

Support