RLDG: Destilación de Políticas Robóticas Generalistas a través del Aprendizaje por Refuerzo
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning
December 13, 2024
Autores: Charles Xu, Qiyang Li, Jianlan Luo, Sergey Levine
cs.AI
Resumen
Los recientes avances en los modelos fundamentales de robótica han permitido el desarrollo de políticas generalistas que pueden adaptarse a diversas tareas. Si bien estos modelos muestran una flexibilidad impresionante, su rendimiento depende en gran medida de la calidad de sus datos de entrenamiento. En este trabajo, proponemos Generalistas Destilados de Aprendizaje por Refuerzo (RLDG), un método que aprovecha el aprendizaje por refuerzo para generar datos de entrenamiento de alta calidad para el ajuste fino de políticas generalistas. A través de extensos experimentos del mundo real en tareas de manipulación precisa como la inserción de conectores y ensamblaje, demostramos que las políticas generalistas entrenadas con datos generados por RL superan consistentemente a aquellas entrenadas con demostraciones humanas, logrando tasas de éxito hasta un 40% más altas y generalizando mejor a nuevas tareas. También proporcionamos un análisis detallado que revela que esta mejora de rendimiento se debe tanto a distribuciones de acciones optimizadas como a una mejor cobertura de estados. Nuestros resultados sugieren que combinar RL específico de la tarea con la destilación de políticas generalistas ofrece un enfoque prometedor para desarrollar sistemas de manipulación robótica más capaces y eficientes que mantienen la flexibilidad de los modelos fundamentales al tiempo que logran el rendimiento de controladores especializados. Los videos y el código se pueden encontrar en nuestro sitio web del proyecto https://generalist-distillation.github.io
English
Recent advances in robotic foundation models have enabled the development of
generalist policies that can adapt to diverse tasks. While these models show
impressive flexibility, their performance heavily depends on the quality of
their training data. In this work, we propose Reinforcement Learning Distilled
Generalists (RLDG), a method that leverages reinforcement learning to generate
high-quality training data for finetuning generalist policies. Through
extensive real-world experiments on precise manipulation tasks like connector
insertion and assembly, we demonstrate that generalist policies trained with
RL-generated data consistently outperform those trained with human
demonstrations, achieving up to 40% higher success rates while generalizing
better to new tasks. We also provide a detailed analysis that reveals this
performance gain stems from both optimized action distributions and improved
state coverage. Our results suggest that combining task-specific RL with
generalist policy distillation offers a promising approach for developing more
capable and efficient robotic manipulation systems that maintain the
flexibility of foundation models while achieving the performance of specialized
controllers. Videos and code can be found on our project website
https://generalist-distillation.github.ioSummary
AI-Generated Summary