Einheitliches Videoaktionsmodell
Unified Video Action Model
February 28, 2025
Autoren: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song
cs.AI
Zusammenfassung
Ein einheitliches Video- und Aktionsmodell birgt erhebliches Potenzial für die Robotik,
wobei Videos umfangreiche Szeneninformationen für die Aktionsvorhersage liefern und Aktionen
Dynamikinformationen für die Videovorhersage bereitstellen. Die effektive Kombination von
Videogenerierung und Aktionsvorhersage bleibt jedoch eine Herausforderung, und aktuelle
videogenerierungsbasierte Methoden haben Schwierigkeiten, die Leistung des direkten
Politiklernens in Bezug auf Aktionsgenauigkeit und Inferenzgeschwindigkeit zu erreichen.
Um diese Lücke zu schließen, führen wir das Unified Video Action Model (UVA) ein, das
Video- und Aktionsvorhersagen gemeinsam optimiert, um sowohl hohe Genauigkeit als auch
effiziente Aktionsinferenz zu erreichen. Der Schlüssel liegt im Erlernen einer gemeinsamen
Video-Aktions-Latentdarstellung und der Entkopplung der Video-Aktions-Dekodierung. Die
gemeinsame Latentdarstellung verbindet die visuelle und die Aktionsdomäne und modelliert
effektiv die Beziehung zwischen Video- und Aktionssequenzen. Gleichzeitig ermöglicht die
entkoppelte Dekodierung, die von zwei leichten Diffusionsköpfen angetrieben wird, eine
hochgeschwindige Aktionsinferenz, indem die Videogenerierung während der Inferenz umgangen
wird. Ein solcher einheitlicher Rahmen ermöglicht weiterhin vielseitige Funktionalität
durch maskierte Eingabetrainings. Durch selektives Maskieren von Aktionen oder Videos kann
ein einzelnes Modell verschiedene Aufgaben über das Politiklernen hinaus bewältigen, wie
z.B. die Modellierung von Vorwärts- und Rückwärtsdynamik und die Videogenerierung.
Durch eine umfangreiche Reihe von Experimenten zeigen wir, dass UVA als allgemeine Lösung
für eine Vielzahl von Robotikaufgaben dienen kann, wie z.B. Politiklernen, Vorwärts-/Rückwärtsdynamik
und Videobeobachtungsvorhersage, ohne die Leistung im Vergleich zu Methoden, die für spezifische
Anwendungen entwickelt wurden, zu beeinträchtigen. Die Ergebnisse sind am besten auf
https://unified-video-action-model.github.io/ zu sehen.
English
A unified video and action model holds significant promise for robotics,
where videos provide rich scene information for action prediction, and actions
provide dynamics information for video prediction. However, effectively
combining video generation and action prediction remains challenging, and
current video generation-based methods struggle to match the performance of
direct policy learning in action accuracy and inference speed. To bridge this
gap, we introduce the Unified Video Action model (UVA), which jointly optimizes
video and action predictions to achieve both high accuracy and efficient action
inference. The key lies in learning a joint video-action latent representation
and decoupling video-action decoding. The joint latent representation bridges
the visual and action domains, effectively modeling the relationship between
video and action sequences. Meanwhile, the decoupled decoding, powered by two
lightweight diffusion heads, enables high-speed action inference by bypassing
video generation during inference. Such a unified framework further enables
versatile functionality through masked input training. By selectively masking
actions or videos, a single model can tackle diverse tasks beyond policy
learning, such as forward and inverse dynamics modeling and video generation.
Via an extensive set of experiments, we demonstrate that UVA can serve as a
general-purpose solution for a wide range of robotics tasks, such as policy
learning, forward/inverse dynamics and video observation prediction, without
compromising performance compared to methods tailored for specific
applications. Results are best viewed on
https://unified-video-action-model.github.io/.Summary
AI-Generated Summary