Vid2Robot : Apprentissage de politiques conditionnées par vidéo de bout en bout avec des Transformers à attention croisée
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers
March 19, 2024
Auteurs: Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi
cs.AI
Résumé
Alors que les systèmes robotiques à grande échelle reposent généralement sur des instructions textuelles pour exécuter des tâches, ce travail explore une approche différente : les robots peuvent-ils déduire la tâche directement en observant les humains ? Ce changement nécessite que le robot soit capable de décoder l'intention humaine et de la traduire en actions exécutables, en tenant compte de ses contraintes physiques et de son environnement. Nous présentons Vid2Robot, un nouveau cadre d'apprentissage end-to-end basé sur la vidéo pour les robots. Étant donné une démonstration vidéo d'une tâche de manipulation et les observations visuelles actuelles, Vid2Robot produit directement les actions du robot. Cela est réalisé grâce à un modèle de représentation unifié entraîné sur un vaste ensemble de données comprenant des vidéos humaines et des trajectoires robotiques. Le modèle exploite des mécanismes d'attention croisée pour fusionner les caractéristiques de la vidéo d'invocation avec l'état actuel du robot et générer des actions appropriées qui imitent la tâche observée. Pour améliorer encore les performances de la politique, nous proposons des pertes contrastives auxiliaires qui renforcent l'alignement entre les représentations vidéo humaines et robotiques. Nous évaluons Vid2Robot sur des robots réels, démontrant une amélioration de 20 % des performances par rapport à d'autres politiques conditionnées par la vidéo lors de l'utilisation de vidéos de démonstration humaine. De plus, notre modèle présente des capacités émergentes, telles que le transfert réussi de mouvements observés d'un objet à un autre, et la composition à long terme, montrant ainsi son potentiel pour des applications réelles. Site du projet : vid2robot.github.io
English
While large-scale robotic systems typically rely on textual instructions for
tasks, this work explores a different approach: can robots infer the task
directly from observing humans? This shift necessitates the robot's ability to
decode human intent and translate it into executable actions within its
physical constraints and environment. We introduce Vid2Robot, a novel
end-to-end video-based learning framework for robots. Given a video
demonstration of a manipulation task and current visual observations, Vid2Robot
directly produces robot actions. This is achieved through a unified
representation model trained on a large dataset of human video and robot
trajectory. The model leverages cross-attention mechanisms to fuse prompt video
features to the robot's current state and generate appropriate actions that
mimic the observed task. To further improve policy performance, we propose
auxiliary contrastive losses that enhance the alignment between human and robot
video representations. We evaluate Vid2Robot on real-world robots,
demonstrating a 20% improvement in performance compared to other
video-conditioned policies when using human demonstration videos. Additionally,
our model exhibits emergent capabilities, such as successfully transferring
observed motions from one object to another, and long-horizon composition, thus
showcasing its potential for real-world applications. Project website:
vid2robot.github.ioSummary
AI-Generated Summary