Vid2Robot: Apprendimento di Politiche Condizionate da Video End-to-end con Trasformatori a Cross-Attention
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers
March 19, 2024
Autori: Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi
cs.AI
Abstract
Mentre i sistemi robotici su larga scala si affidano tipicamente a istruzioni testuali per eseguire compiti, questo lavoro esplora un approccio diverso: i robot possono dedurre il compito direttamente osservando gli esseri umani? Questo cambiamento richiede che il robot sia in grado di decodificare l'intenzione umana e tradurla in azioni eseguibili, tenendo conto dei suoi vincoli fisici e dell'ambiente circostante. Introduciamo Vid2Robot, un innovativo framework di apprendimento end-to-end basato su video per robot. Dato un video dimostrativo di un compito di manipolazione e le osservazioni visive attuali, Vid2Robot produce direttamente le azioni del robot. Ciò è reso possibile attraverso un modello di rappresentazione unificato addestrato su un ampio dataset di video umani e traiettorie robotiche. Il modello sfrutta meccanismi di cross-attention per fondere le caratteristiche del video di prompt con lo stato attuale del robot e generare azioni appropriate che imitano il compito osservato. Per migliorare ulteriormente le prestazioni della policy, proponiamo perdite contrastive ausiliarie che migliorano l'allineamento tra le rappresentazioni video umane e robotiche. Valutiamo Vid2Robot su robot reali, dimostrando un miglioramento del 20% nelle prestazioni rispetto ad altre policy condizionate da video quando si utilizzano video dimostrativi umani. Inoltre, il nostro modello mostra capacità emergenti, come il trasferimento con successo di movimenti osservati da un oggetto a un altro e la composizione a lungo termine, evidenziando così il suo potenziale per applicazioni nel mondo reale. Sito del progetto: vid2robot.github.io
English
While large-scale robotic systems typically rely on textual instructions for
tasks, this work explores a different approach: can robots infer the task
directly from observing humans? This shift necessitates the robot's ability to
decode human intent and translate it into executable actions within its
physical constraints and environment. We introduce Vid2Robot, a novel
end-to-end video-based learning framework for robots. Given a video
demonstration of a manipulation task and current visual observations, Vid2Robot
directly produces robot actions. This is achieved through a unified
representation model trained on a large dataset of human video and robot
trajectory. The model leverages cross-attention mechanisms to fuse prompt video
features to the robot's current state and generate appropriate actions that
mimic the observed task. To further improve policy performance, we propose
auxiliary contrastive losses that enhance the alignment between human and robot
video representations. We evaluate Vid2Robot on real-world robots,
demonstrating a 20% improvement in performance compared to other
video-conditioned policies when using human demonstration videos. Additionally,
our model exhibits emergent capabilities, such as successfully transferring
observed motions from one object to another, and long-horizon composition, thus
showcasing its potential for real-world applications. Project website:
vid2robot.github.io