RACER: Богатые языком политики восстановления после ошибок для обучения имитации
RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning
September 23, 2024
Авторы: Yinpei Dai, Jayjun Lee, Nima Fazeli, Joyce Chai
cs.AI
Аннотация
Разработка надежных и корректируемых визуомоторных стратегий для робототехнического манипулирования представляет собой сложную задачу из-за отсутствия механизмов самовосстановления после сбоев и ограничений простых языковых инструкций в руководстве действиями робота. Для решения этих проблем мы предлагаем масштабируемый процесс генерации данных, который автоматически дополняет экспертные демонстрации траекториями восстановления после сбоев и детализированными языковыми аннотациями для обучения. Затем мы представляем Rich languAge-guided failure reCovERy (RACER), фреймворк супервайзера-актера, который объединяет данные восстановления после сбоев с богатыми языковыми описаниями для улучшения управления роботом. RACER включает модель зрения-языка (VLM), действующую как онлайн супервайзер, предоставляющий подробное языковое руководство для исправления ошибок и выполнения задач, а также языково-условленную визуомоторную стратегию в качестве актера для предсказания следующих действий. Наши экспериментальные результаты показывают, что RACER превосходит современный Robotic View Transformer (RVT) на платформе RLbench в различных настройках оценки, включая стандартные задачи с долгим горизонтом, динамические задачи изменения целей и невидимые задачи с нулевым шагом, достигая превосходных результатов как в симулированных, так и в реальных средах. Видео и код доступны по ссылке: https://rich-language-failure-recovery.github.io.
English
Developing robust and correctable visuomotor policies for robotic
manipulation is challenging due to the lack of self-recovery mechanisms from
failures and the limitations of simple language instructions in guiding robot
actions. To address these issues, we propose a scalable data generation
pipeline that automatically augments expert demonstrations with failure
recovery trajectories and fine-grained language annotations for training. We
then introduce Rich languAge-guided failure reCovERy (RACER), a
supervisor-actor framework, which combines failure recovery data with rich
language descriptions to enhance robot control. RACER features a
vision-language model (VLM) that acts as an online supervisor, providing
detailed language guidance for error correction and task execution, and a
language-conditioned visuomotor policy as an actor to predict the next actions.
Our experimental results show that RACER outperforms the state-of-the-art
Robotic View Transformer (RVT) on RLbench across various evaluation settings,
including standard long-horizon tasks, dynamic goal-change tasks and zero-shot
unseen tasks, achieving superior performance in both simulated and real world
environments. Videos and code are available at:
https://rich-language-failure-recovery.github.io.Summary
AI-Generated Summary