Vid2Robot: End-to-End-Policy-Lernen unter Verwendung von Video-Bedingungen mit Cross-Attention-Transformern

papers.abstract

Während groß angelegte robotische Systeme in der Regel auf textuelle Anweisungen für Aufgaben angewiesen sind, erforscht diese Arbeit einen anderen Ansatz: Können Roboter die Aufgabe direkt aus der Beobachtung von Menschen ableiten? Dieser Wechsel erfordert die Fähigkeit des Roboters, menschliche Absichten zu entschlüsseln und in ausführbare Aktionen innerhalb seiner physischen Beschränkungen und Umgebung zu übersetzen. Wir stellen Vid2Robot vor, ein neuartiges End-to-End-Lernframework für Roboter, das auf Videos basiert. Anhand einer Video-Demonstration einer Manipulationsaufgabe und aktueller visueller Beobachtungen erzeugt Vid2Robot direkt Roboteraktionen. Dies wird durch ein vereinheitlichtes Repräsentationsmodell erreicht, das auf einem großen Datensatz von menschlichen Videos und Robotertrajektorien trainiert ist. Das Modell nutzt Kreuz-Aufmerksamkeitsmechanismen, um Video-Merkmale mit dem aktuellen Zustand des Roboters zu verschmelzen und geeignete Aktionen zu generieren, die die beobachtete Aufgabe nachahmen. Zur weiteren Verbesserung der Policy-Performance schlagen wir zusätzliche kontrastive Verluste vor, die die Ausrichtung zwischen menschlichen und Roboter-Video-Repräsentationen verbessern. Wir evaluieren Vid2Robot an realen Robotern und zeigen eine Leistungssteigerung von 20% im Vergleich zu anderen video-konditionierten Richtlinien bei Verwendung von Videos menschlicher Demonstrationen. Darüber hinaus zeigt unser Modell aufkommende Fähigkeiten, wie das erfolgreiche Übertragen beobachteter Bewegungen von einem Objekt auf ein anderes und die Komposition über lange Horizonte, wodurch sein Potenzial für Anwendungen in der realen Welt verdeutlicht wird. Projektwebsite: vid2robot.github.io

English

While large-scale robotic systems typically rely on textual instructions for tasks, this work explores a different approach: can robots infer the task directly from observing humans? This shift necessitates the robot's ability to decode human intent and translate it into executable actions within its physical constraints and environment. We introduce Vid2Robot, a novel end-to-end video-based learning framework for robots. Given a video demonstration of a manipulation task and current visual observations, Vid2Robot directly produces robot actions. This is achieved through a unified representation model trained on a large dataset of human video and robot trajectory. The model leverages cross-attention mechanisms to fuse prompt video features to the robot's current state and generate appropriate actions that mimic the observed task. To further improve policy performance, we propose auxiliary contrastive losses that enhance the alignment between human and robot video representations. We evaluate Vid2Robot on real-world robots, demonstrating a 20% improvement in performance compared to other video-conditioned policies when using human demonstration videos. Additionally, our model exhibits emergent capabilities, such as successfully transferring observed motions from one object to another, and long-horizon composition, thus showcasing its potential for real-world applications. Project website: vid2robot.github.io

Vid2Robot: End-to-End-Policy-Lernen unter Verwendung von Video-Bedingungen mit Cross-Attention-Transformern

Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers

papers.abstract

Support