ChatPaper.aiChatPaper

Vid2Robot : Apprentissage de politiques conditionnées par vidéo de bout en bout avec des Transformers à attention croisée

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers

March 19, 2024
Auteurs: Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi
cs.AI

Résumé

Alors que les systèmes robotiques à grande échelle reposent généralement sur des instructions textuelles pour exécuter des tâches, ce travail explore une approche différente : les robots peuvent-ils déduire la tâche directement en observant les humains ? Ce changement nécessite que le robot soit capable de décoder l'intention humaine et de la traduire en actions exécutables, en tenant compte de ses contraintes physiques et de son environnement. Nous présentons Vid2Robot, un nouveau cadre d'apprentissage end-to-end basé sur la vidéo pour les robots. Étant donné une démonstration vidéo d'une tâche de manipulation et les observations visuelles actuelles, Vid2Robot produit directement les actions du robot. Cela est réalisé grâce à un modèle de représentation unifié entraîné sur un vaste ensemble de données comprenant des vidéos humaines et des trajectoires robotiques. Le modèle exploite des mécanismes d'attention croisée pour fusionner les caractéristiques de la vidéo d'invocation avec l'état actuel du robot et générer des actions appropriées qui imitent la tâche observée. Pour améliorer encore les performances de la politique, nous proposons des pertes contrastives auxiliaires qui renforcent l'alignement entre les représentations vidéo humaines et robotiques. Nous évaluons Vid2Robot sur des robots réels, démontrant une amélioration de 20 % des performances par rapport à d'autres politiques conditionnées par la vidéo lors de l'utilisation de vidéos de démonstration humaine. De plus, notre modèle présente des capacités émergentes, telles que le transfert réussi de mouvements observés d'un objet à un autre, et la composition à long terme, montrant ainsi son potentiel pour des applications réelles. Site du projet : vid2robot.github.io
English
While large-scale robotic systems typically rely on textual instructions for tasks, this work explores a different approach: can robots infer the task directly from observing humans? This shift necessitates the robot's ability to decode human intent and translate it into executable actions within its physical constraints and environment. We introduce Vid2Robot, a novel end-to-end video-based learning framework for robots. Given a video demonstration of a manipulation task and current visual observations, Vid2Robot directly produces robot actions. This is achieved through a unified representation model trained on a large dataset of human video and robot trajectory. The model leverages cross-attention mechanisms to fuse prompt video features to the robot's current state and generate appropriate actions that mimic the observed task. To further improve policy performance, we propose auxiliary contrastive losses that enhance the alignment between human and robot video representations. We evaluate Vid2Robot on real-world robots, demonstrating a 20% improvement in performance compared to other video-conditioned policies when using human demonstration videos. Additionally, our model exhibits emergent capabilities, such as successfully transferring observed motions from one object to another, and long-horizon composition, thus showcasing its potential for real-world applications. Project website: vid2robot.github.io

Summary

AI-Generated Summary

PDF151December 15, 2024