RACER: Politiche di Recupero di Fallimenti Guidate da Linguaggio Ricco per l'Apprendimento per Imitazione
RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning
September 23, 2024
Autori: Yinpei Dai, Jayjun Lee, Nima Fazeli, Joyce Chai
cs.AI
Abstract
Lo sviluppo di politiche visuomotorie robuste e correggibili per la manipolazione robotica è sfidante a causa della mancanza di meccanismi di auto-ripristino dai fallimenti e delle limitazioni delle istruzioni linguistiche semplici nel guidare le azioni del robot. Per affrontare questi problemi, proponiamo un flusso di generazione dati scalabile che automaticamente arricchisce le dimostrazioni degli esperti con traiettorie di recupero dai fallimenti e annotazioni linguistiche dettagliate per l'addestramento. Introduciamo quindi Rich languAge-guided failure reCovERy (RACER), un framework supervisore-attore, che combina i dati di recupero dai fallimenti con descrizioni linguistiche dettagliate per migliorare il controllo del robot. RACER presenta un modello visione-linguaggio (VLM) che agisce come supervisore online, fornendo dettagliate indicazioni linguistiche per la correzione degli errori e l'esecuzione del compito, e una politica visuomotoria condizionata dal linguaggio come attore per prevedere le prossime azioni. I nostri risultati sperimentali mostrano che RACER supera lo stato dell'arte del Robotic View Transformer (RVT) su RLbench attraverso vari setting di valutazione, inclusi compiti standard a lungo termine, compiti dinamici di cambio obiettivo e compiti non visti a zero-shot, raggiungendo prestazioni superiori sia in ambienti simulati che reali. Video e codice sono disponibili su: https://rich-language-failure-recovery.github.io.
English
Developing robust and correctable visuomotor policies for robotic
manipulation is challenging due to the lack of self-recovery mechanisms from
failures and the limitations of simple language instructions in guiding robot
actions. To address these issues, we propose a scalable data generation
pipeline that automatically augments expert demonstrations with failure
recovery trajectories and fine-grained language annotations for training. We
then introduce Rich languAge-guided failure reCovERy (RACER), a
supervisor-actor framework, which combines failure recovery data with rich
language descriptions to enhance robot control. RACER features a
vision-language model (VLM) that acts as an online supervisor, providing
detailed language guidance for error correction and task execution, and a
language-conditioned visuomotor policy as an actor to predict the next actions.
Our experimental results show that RACER outperforms the state-of-the-art
Robotic View Transformer (RVT) on RLbench across various evaluation settings,
including standard long-horizon tasks, dynamic goal-change tasks and zero-shot
unseen tasks, achieving superior performance in both simulated and real world
environments. Videos and code are available at:
https://rich-language-failure-recovery.github.io.Summary
AI-Generated Summary