Vid2Robot: End-to-End-Policy-Lernen unter Verwendung von Video-Bedingungen mit Cross-Attention-Transformern
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers
March 19, 2024
Autoren: Vidhi Jain, Maria Attarian, Nikhil J Joshi, Ayzaan Wahid, Danny Driess, Quan Vuong, Pannag R Sanketi, Pierre Sermanet, Stefan Welker, Christine Chan, Igor Gilitschenski, Yonatan Bisk, Debidatta Dwibedi
cs.AI
Zusammenfassung
Während groß angelegte robotische Systeme in der Regel auf textuelle Anweisungen für Aufgaben angewiesen sind, erforscht diese Arbeit einen anderen Ansatz: Können Roboter die Aufgabe direkt aus der Beobachtung von Menschen ableiten? Dieser Wechsel erfordert die Fähigkeit des Roboters, menschliche Absichten zu entschlüsseln und in ausführbare Aktionen innerhalb seiner physischen Beschränkungen und Umgebung zu übersetzen. Wir stellen Vid2Robot vor, ein neuartiges End-to-End-Lernframework für Roboter, das auf Videos basiert. Anhand einer Video-Demonstration einer Manipulationsaufgabe und aktueller visueller Beobachtungen erzeugt Vid2Robot direkt Roboteraktionen. Dies wird durch ein vereinheitlichtes Repräsentationsmodell erreicht, das auf einem großen Datensatz von menschlichen Videos und Robotertrajektorien trainiert ist. Das Modell nutzt Kreuz-Aufmerksamkeitsmechanismen, um Video-Merkmale mit dem aktuellen Zustand des Roboters zu verschmelzen und geeignete Aktionen zu generieren, die die beobachtete Aufgabe nachahmen. Zur weiteren Verbesserung der Policy-Performance schlagen wir zusätzliche kontrastive Verluste vor, die die Ausrichtung zwischen menschlichen und Roboter-Video-Repräsentationen verbessern. Wir evaluieren Vid2Robot an realen Robotern und zeigen eine Leistungssteigerung von 20% im Vergleich zu anderen video-konditionierten Richtlinien bei Verwendung von Videos menschlicher Demonstrationen. Darüber hinaus zeigt unser Modell aufkommende Fähigkeiten, wie das erfolgreiche Übertragen beobachteter Bewegungen von einem Objekt auf ein anderes und die Komposition über lange Horizonte, wodurch sein Potenzial für Anwendungen in der realen Welt verdeutlicht wird. Projektwebsite: vid2robot.github.io
English
While large-scale robotic systems typically rely on textual instructions for
tasks, this work explores a different approach: can robots infer the task
directly from observing humans? This shift necessitates the robot's ability to
decode human intent and translate it into executable actions within its
physical constraints and environment. We introduce Vid2Robot, a novel
end-to-end video-based learning framework for robots. Given a video
demonstration of a manipulation task and current visual observations, Vid2Robot
directly produces robot actions. This is achieved through a unified
representation model trained on a large dataset of human video and robot
trajectory. The model leverages cross-attention mechanisms to fuse prompt video
features to the robot's current state and generate appropriate actions that
mimic the observed task. To further improve policy performance, we propose
auxiliary contrastive losses that enhance the alignment between human and robot
video representations. We evaluate Vid2Robot on real-world robots,
demonstrating a 20% improvement in performance compared to other
video-conditioned policies when using human demonstration videos. Additionally,
our model exhibits emergent capabilities, such as successfully transferring
observed motions from one object to another, and long-horizon composition, thus
showcasing its potential for real-world applications. Project website:
vid2robot.github.ioSummary
AI-Generated Summary