ChatPaper.aiChatPaper

Vid2Robot: End-to-end Beleidsleren op basis van video met Cross-Attention Transformers

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers

March 19, 2024
Auteurs: Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi
cs.AI

Samenvatting

Hoewel grootschalige robotsystemen doorgaans vertrouwen op tekstuele instructies voor taken, onderzoekt dit werk een andere benadering: kunnen robots de taak direct afleiden door mensen te observeren? Deze verschuiving vereist het vermogen van de robot om menselijke intentie te decoderen en deze om te zetten in uitvoerbare acties binnen zijn fysieke beperkingen en omgeving. We introduceren Vid2Robot, een nieuw end-to-end videogebaseerd leerframework voor robots. Gegeven een videodemonstratie van een manipulatietaak en huidige visuele waarnemingen, produceert Vid2Robot direct robotacties. Dit wordt bereikt door middel van een uniform representatiemodel dat is getraind op een grote dataset van menselijke video's en robot trajecten. Het model maakt gebruik van cross-attention mechanismen om prompt videokenmerken te integreren met de huidige staat van de robot en geschikte acties te genereren die de waargenomen taak nabootsen. Om de beleidsprestaties verder te verbeteren, stellen we aanvullende contrastieve verliezen voor die de afstemming tussen menselijke en robot videorepresentaties versterken. We evalueren Vid2Robot op echte robots, waarbij een prestatieverbetering van 20% wordt aangetoond in vergelijking met andere videogebaseerde beleidsmethoden bij het gebruik van menselijke demonstratievideo's. Daarnaast vertoont ons model opkomende capaciteiten, zoals het succesvol overbrengen van waargenomen bewegingen van het ene naar het andere object, en lange-termijn compositie, wat het potentieel voor real-world toepassingen aantoont. Projectwebsite: vid2robot.github.io
English
While large-scale robotic systems typically rely on textual instructions for tasks, this work explores a different approach: can robots infer the task directly from observing humans? This shift necessitates the robot's ability to decode human intent and translate it into executable actions within its physical constraints and environment. We introduce Vid2Robot, a novel end-to-end video-based learning framework for robots. Given a video demonstration of a manipulation task and current visual observations, Vid2Robot directly produces robot actions. This is achieved through a unified representation model trained on a large dataset of human video and robot trajectory. The model leverages cross-attention mechanisms to fuse prompt video features to the robot's current state and generate appropriate actions that mimic the observed task. To further improve policy performance, we propose auxiliary contrastive losses that enhance the alignment between human and robot video representations. We evaluate Vid2Robot on real-world robots, demonstrating a 20% improvement in performance compared to other video-conditioned policies when using human demonstration videos. Additionally, our model exhibits emergent capabilities, such as successfully transferring observed motions from one object to another, and long-horizon composition, thus showcasing its potential for real-world applications. Project website: vid2robot.github.io
PDF151February 9, 2026