Vid2Robot: End-to-end Beleidsleren op basis van video met Cross-Attention Transformers
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers
March 19, 2024
Auteurs: Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi
cs.AI
Samenvatting
Hoewel grootschalige robotsystemen doorgaans vertrouwen op tekstuele instructies voor taken, onderzoekt dit werk een andere benadering: kunnen robots de taak direct afleiden door mensen te observeren? Deze verschuiving vereist het vermogen van de robot om menselijke intentie te decoderen en deze om te zetten in uitvoerbare acties binnen zijn fysieke beperkingen en omgeving. We introduceren Vid2Robot, een nieuw end-to-end videogebaseerd leerframework voor robots. Gegeven een videodemonstratie van een manipulatietaak en huidige visuele waarnemingen, produceert Vid2Robot direct robotacties. Dit wordt bereikt door middel van een uniform representatiemodel dat is getraind op een grote dataset van menselijke video's en robot trajecten. Het model maakt gebruik van cross-attention mechanismen om prompt videokenmerken te integreren met de huidige staat van de robot en geschikte acties te genereren die de waargenomen taak nabootsen. Om de beleidsprestaties verder te verbeteren, stellen we aanvullende contrastieve verliezen voor die de afstemming tussen menselijke en robot videorepresentaties versterken. We evalueren Vid2Robot op echte robots, waarbij een prestatieverbetering van 20% wordt aangetoond in vergelijking met andere videogebaseerde beleidsmethoden bij het gebruik van menselijke demonstratievideo's. Daarnaast vertoont ons model opkomende capaciteiten, zoals het succesvol overbrengen van waargenomen bewegingen van het ene naar het andere object, en lange-termijn compositie, wat het potentieel voor real-world toepassingen aantoont. Projectwebsite: vid2robot.github.io
English
While large-scale robotic systems typically rely on textual instructions for
tasks, this work explores a different approach: can robots infer the task
directly from observing humans? This shift necessitates the robot's ability to
decode human intent and translate it into executable actions within its
physical constraints and environment. We introduce Vid2Robot, a novel
end-to-end video-based learning framework for robots. Given a video
demonstration of a manipulation task and current visual observations, Vid2Robot
directly produces robot actions. This is achieved through a unified
representation model trained on a large dataset of human video and robot
trajectory. The model leverages cross-attention mechanisms to fuse prompt video
features to the robot's current state and generate appropriate actions that
mimic the observed task. To further improve policy performance, we propose
auxiliary contrastive losses that enhance the alignment between human and robot
video representations. We evaluate Vid2Robot on real-world robots,
demonstrating a 20% improvement in performance compared to other
video-conditioned policies when using human demonstration videos. Additionally,
our model exhibits emergent capabilities, such as successfully transferring
observed motions from one object to another, and long-horizon composition, thus
showcasing its potential for real-world applications. Project website:
vid2robot.github.io