RGPD: Roboter-Allrounder-Policy-Verdichtung durch Reinforcement Learning

papers.abstract

In jüngster Zeit haben Fortschritte bei den Grundlagenmodellen für Roboter die Entwicklung von Generalisten-Policies ermöglicht, die sich an verschiedene Aufgaben anpassen können. Obwohl diese Modelle eine beeindruckende Flexibilität zeigen, hängt ihre Leistung stark von der Qualität ihrer Trainingsdaten ab. In dieser Arbeit schlagen wir Reinforcement Learning Distilled Generalists (RLDG) vor, eine Methode, die auf Verstärkendem Lernen basiert, um hochwertige Trainingsdaten für das Feintuning von Generalisten-Policies zu generieren. Durch umfangreiche Experimente in der realen Welt mit präzisen Manipulationsaufgaben wie dem Einsetzen von Verbindungsstücken und der Montage zeigen wir, dass Generalisten-Policies, die mit RL-generierten Daten trainiert wurden, konsistent besser abschneiden als diejenigen, die mit menschlichen Demonstrationen trainiert wurden. Sie erreichen bis zu 40% höhere Erfolgsraten und generalisieren besser auf neue Aufgaben. Wir bieten auch eine detaillierte Analyse an, die zeigt, dass dieser Leistungsgewinn sowohl von optimierten Aktionsverteilungen als auch von verbesserter Zustandsabdeckung herrührt. Unsere Ergebnisse legen nahe, dass die Kombination von aufgabenspezifischem RL mit der Destillation von Generalisten-Policies einen vielversprechenden Ansatz für die Entwicklung von leistungsfähigeren und effizienteren Robotermanipulationssystemen bietet, die die Flexibilität der Grundlagenmodelle beibehalten und gleichzeitig die Leistung spezialisierter Controller erreichen. Videos und Code sind auf unserer Projektwebsite verfügbar: https://generalist-distillation.github.io

English

Recent advances in robotic foundation models have enabled the development of generalist policies that can adapt to diverse tasks. While these models show impressive flexibility, their performance heavily depends on the quality of their training data. In this work, we propose Reinforcement Learning Distilled Generalists (RLDG), a method that leverages reinforcement learning to generate high-quality training data for finetuning generalist policies. Through extensive real-world experiments on precise manipulation tasks like connector insertion and assembly, we demonstrate that generalist policies trained with RL-generated data consistently outperform those trained with human demonstrations, achieving up to 40% higher success rates while generalizing better to new tasks. We also provide a detailed analysis that reveals this performance gain stems from both optimized action distributions and improved state coverage. Our results suggest that combining task-specific RL with generalist policy distillation offers a promising approach for developing more capable and efficient robotic manipulation systems that maintain the flexibility of foundation models while achieving the performance of specialized controllers. Videos and code can be found on our project website https://generalist-distillation.github.io

RGPD: Roboter-Allrounder-Policy-Verdichtung durch Reinforcement Learning

RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

papers.abstract

Support