RLDG: Destilación de Políticas Robóticas Generalistas a través del Aprendizaje por Refuerzo

Resumen

Los recientes avances en los modelos fundamentales de robótica han permitido el desarrollo de políticas generalistas que pueden adaptarse a diversas tareas. Si bien estos modelos muestran una flexibilidad impresionante, su rendimiento depende en gran medida de la calidad de sus datos de entrenamiento. En este trabajo, proponemos Generalistas Destilados de Aprendizaje por Refuerzo (RLDG), un método que aprovecha el aprendizaje por refuerzo para generar datos de entrenamiento de alta calidad para el ajuste fino de políticas generalistas. A través de extensos experimentos del mundo real en tareas de manipulación precisa como la inserción de conectores y ensamblaje, demostramos que las políticas generalistas entrenadas con datos generados por RL superan consistentemente a aquellas entrenadas con demostraciones humanas, logrando tasas de éxito hasta un 40% más altas y generalizando mejor a nuevas tareas. También proporcionamos un análisis detallado que revela que esta mejora de rendimiento se debe tanto a distribuciones de acciones optimizadas como a una mejor cobertura de estados. Nuestros resultados sugieren que combinar RL específico de la tarea con la destilación de políticas generalistas ofrece un enfoque prometedor para desarrollar sistemas de manipulación robótica más capaces y eficientes que mantienen la flexibilidad de los modelos fundamentales al tiempo que logran el rendimiento de controladores especializados. Los videos y el código se pueden encontrar en nuestro sitio web del proyecto https://generalist-distillation.github.io

English

Recent advances in robotic foundation models have enabled the development of generalist policies that can adapt to diverse tasks. While these models show impressive flexibility, their performance heavily depends on the quality of their training data. In this work, we propose Reinforcement Learning Distilled Generalists (RLDG), a method that leverages reinforcement learning to generate high-quality training data for finetuning generalist policies. Through extensive real-world experiments on precise manipulation tasks like connector insertion and assembly, we demonstrate that generalist policies trained with RL-generated data consistently outperform those trained with human demonstrations, achieving up to 40% higher success rates while generalizing better to new tasks. We also provide a detailed analysis that reveals this performance gain stems from both optimized action distributions and improved state coverage. Our results suggest that combining task-specific RL with generalist policy distillation offers a promising approach for developing more capable and efficient robotic manipulation systems that maintain the flexibility of foundation models while achieving the performance of specialized controllers. Videos and code can be found on our project website https://generalist-distillation.github.io

RLDG: Destilación de Políticas Robóticas Generalistas a través del Aprendizaje por Refuerzo

RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

Resumen

Support