Unified Video Actie Model
Unified Video Action Model
February 28, 2025
Auteurs: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song
cs.AI
Samenvatting
Een geïntegreerd video- en actiemodel biedt aanzienlijke mogelijkheden voor robotica, waarbij video's rijke scène-informatie bieden voor actievoorspelling en acties dynamische informatie leveren voor videovoorspelling. Het effectief combineren van videogeneratie en actievoorspelling blijft echter een uitdaging, en huidige methoden op basis van videogeneratie hebben moeite om de prestaties van direct beleidsleren te evenaren op het gebied van actienauwkeurigheid en inferentiesnelheid. Om deze kloof te overbruggen, introduceren we het Unified Video Action-model (UVA), dat gezamenlijk video- en actievoorspellingen optimaliseert om zowel hoge nauwkeurigheid als efficiënte actie-inferentie te bereiken. De sleutel ligt in het leren van een gezamenlijke video-actie latenterepresentatie en het ontkoppelen van video-actie-decodering. De gezamenlijke latenterepresentatie overbrugt de visuele en actiedomeinen en modelleert effectief de relatie tussen video- en actiesequenties. Tegelijkertijd maakt de ontkoppelde decodering, aangedreven door twee lichtgewicht diffusiekoppen, snelle actie-inferentie mogelijk door videogeneratie tijdens inferentie te omzeilen. Zo'n geïntegreerd framework maakt verder veelzijdige functionaliteit mogelijk door middel van getrainde gemaskeerde invoer. Door selectief acties of video's te maskeren, kan een enkel model diverse taken aanpakken die verder gaan dan beleidsleren, zoals voorwaartse en inverse dynamische modellering en videogeneratie. Via een uitgebreide reeks experimenten tonen we aan dat UVA kan dienen als een algemene oplossing voor een breed scala aan robotica-taken, zoals beleidsleren, voorwaartse/inverse dynamica en videowaarnemingsvoorspelling, zonder in te leveren op prestaties in vergelijking met methoden die zijn afgestemd op specifieke toepassingen. De resultaten zijn het beste te bekijken op https://unified-video-action-model.github.io/.
English
A unified video and action model holds significant promise for robotics,
where videos provide rich scene information for action prediction, and actions
provide dynamics information for video prediction. However, effectively
combining video generation and action prediction remains challenging, and
current video generation-based methods struggle to match the performance of
direct policy learning in action accuracy and inference speed. To bridge this
gap, we introduce the Unified Video Action model (UVA), which jointly optimizes
video and action predictions to achieve both high accuracy and efficient action
inference. The key lies in learning a joint video-action latent representation
and decoupling video-action decoding. The joint latent representation bridges
the visual and action domains, effectively modeling the relationship between
video and action sequences. Meanwhile, the decoupled decoding, powered by two
lightweight diffusion heads, enables high-speed action inference by bypassing
video generation during inference. Such a unified framework further enables
versatile functionality through masked input training. By selectively masking
actions or videos, a single model can tackle diverse tasks beyond policy
learning, such as forward and inverse dynamics modeling and video generation.
Via an extensive set of experiments, we demonstrate that UVA can serve as a
general-purpose solution for a wide range of robotics tasks, such as policy
learning, forward/inverse dynamics and video observation prediction, without
compromising performance compared to methods tailored for specific
applications. Results are best viewed on
https://unified-video-action-model.github.io/.Summary
AI-Generated Summary