ChatPaper.aiChatPaper

RLDG: Дистилляция общего политики робототехнического обобщенного агента с использованием обучения с подкреплением

RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

December 13, 2024
Авторы: Charles Xu, Qiyang Li, Jianlan Luo, Sergey Levine
cs.AI

Аннотация

Недавние достижения в области робототехнических базовых моделей позволили разработать общие стратегии, способные адаптироваться к различным задачам. Хотя эти модели проявляют впечатляющую гибкость, их производительность в значительной степени зависит от качества обучающих данных. В данной работе мы предлагаем метод Reinforcement Learning Distilled Generalists (RLDG), который использует обучение с подкреплением для генерации высококачественных обучающих данных для настройки общих стратегий. Через обширные эксперименты в реальном мире по точным манипуляционным задачам, таким как вставка и сборка разъемов, мы демонстрируем, что общие стратегии, обученные с использованием данных, сгенерированных RL, последовательно превосходят те, которые обучены с помощью демонстраций человека, достигая до 40% более высоких показателей успешности и лучшей обобщаемости на новые задачи. Мы также предоставляем подробный анализ, который показывает, что улучшение производительности обусловлено как оптимизированными распределениями действий, так и улучшенным охватом состояний. Наши результаты свидетельствуют о том, что комбинирование задачно-специфического обучения с обобщенной дистилляцией стратегий предлагает многообещающий подход для разработки более способных и эффективных систем робототехнической манипуляции, которые сохраняют гибкость базовых моделей, достигая при этом производительности специализированных контроллеров. Видео и код можно найти на нашем веб-сайте проекта https://generalist-distillation.github.io
English
Recent advances in robotic foundation models have enabled the development of generalist policies that can adapt to diverse tasks. While these models show impressive flexibility, their performance heavily depends on the quality of their training data. In this work, we propose Reinforcement Learning Distilled Generalists (RLDG), a method that leverages reinforcement learning to generate high-quality training data for finetuning generalist policies. Through extensive real-world experiments on precise manipulation tasks like connector insertion and assembly, we demonstrate that generalist policies trained with RL-generated data consistently outperform those trained with human demonstrations, achieving up to 40% higher success rates while generalizing better to new tasks. We also provide a detailed analysis that reveals this performance gain stems from both optimized action distributions and improved state coverage. Our results suggest that combining task-specific RL with generalist policy distillation offers a promising approach for developing more capable and efficient robotic manipulation systems that maintain the flexibility of foundation models while achieving the performance of specialized controllers. Videos and code can be found on our project website https://generalist-distillation.github.io

Summary

AI-Generated Summary

PDF12December 18, 2024