RACER: Politiche di Recupero di Fallimenti Guidate da Linguaggio Ricco per l'Apprendimento per Imitazione

Abstract

Lo sviluppo di politiche visuomotorie robuste e correggibili per la manipolazione robotica è sfidante a causa della mancanza di meccanismi di auto-ripristino dai fallimenti e delle limitazioni delle istruzioni linguistiche semplici nel guidare le azioni del robot. Per affrontare questi problemi, proponiamo un flusso di generazione dati scalabile che automaticamente arricchisce le dimostrazioni degli esperti con traiettorie di recupero dai fallimenti e annotazioni linguistiche dettagliate per l'addestramento. Introduciamo quindi Rich languAge-guided failure reCovERy (RACER), un framework supervisore-attore, che combina i dati di recupero dai fallimenti con descrizioni linguistiche dettagliate per migliorare il controllo del robot. RACER presenta un modello visione-linguaggio (VLM) che agisce come supervisore online, fornendo dettagliate indicazioni linguistiche per la correzione degli errori e l'esecuzione del compito, e una politica visuomotoria condizionata dal linguaggio come attore per prevedere le prossime azioni. I nostri risultati sperimentali mostrano che RACER supera lo stato dell'arte del Robotic View Transformer (RVT) su RLbench attraverso vari setting di valutazione, inclusi compiti standard a lungo termine, compiti dinamici di cambio obiettivo e compiti non visti a zero-shot, raggiungendo prestazioni superiori sia in ambienti simulati che reali. Video e codice sono disponibili su: https://rich-language-failure-recovery.github.io.

English

Developing robust and correctable visuomotor policies for robotic manipulation is challenging due to the lack of self-recovery mechanisms from failures and the limitations of simple language instructions in guiding robot actions. To address these issues, we propose a scalable data generation pipeline that automatically augments expert demonstrations with failure recovery trajectories and fine-grained language annotations for training. We then introduce Rich languAge-guided failure reCovERy (RACER), a supervisor-actor framework, which combines failure recovery data with rich language descriptions to enhance robot control. RACER features a vision-language model (VLM) that acts as an online supervisor, providing detailed language guidance for error correction and task execution, and a language-conditioned visuomotor policy as an actor to predict the next actions. Our experimental results show that RACER outperforms the state-of-the-art Robotic View Transformer (RVT) on RLbench across various evaluation settings, including standard long-horizon tasks, dynamic goal-change tasks and zero-shot unseen tasks, achieving superior performance in both simulated and real world environments. Videos and code are available at: https://rich-language-failure-recovery.github.io.

RACER: Politiche di Recupero di Fallimenti Guidate da Linguaggio Ricco per l'Apprendimento per Imitazione

RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning

Abstract

Summary

Support

Support