Modèle unifié d'action vidéo
Unified Video Action Model
February 28, 2025
Auteurs: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song
cs.AI
Résumé
Un modèle unifié pour la vidéo et l'action présente un potentiel significatif pour la robotique, où les vidéos fournissent des informations riches sur la scène pour la prédiction d'actions, et les actions fournissent des informations dynamiques pour la prédiction vidéo. Cependant, combiner efficacement la génération de vidéos et la prédiction d'actions reste un défi, et les méthodes actuelles basées sur la génération de vidéos peinent à égaler les performances de l'apprentissage direct de politiques en termes de précision des actions et de vitesse d'inférence. Pour combler cette lacune, nous introduisons le modèle Vidéo-Action Unifié (UVA), qui optimise conjointement les prédictions vidéo et action pour atteindre à la fois une haute précision et une inférence d'action efficace. La clé réside dans l'apprentissage d'une représentation latente commune vidéo-action et dans le décodage séparé vidéo-action. La représentation latente commune relie les domaines visuel et action, modélisant efficacement la relation entre les séquences vidéo et action. Parallèlement, le décodage séparé, alimenté par deux têtes de diffusion légères, permet une inférence d'action à haute vitesse en contournant la génération de vidéos pendant l'inférence. Un tel cadre unifié permet en outre une fonctionnalité polyvalente grâce à l'entraînement sur entrées masquées. En masquant sélectivement les actions ou les vidéos, un seul modèle peut aborder diverses tâches au-delà de l'apprentissage de politiques, telles que la modélisation des dynamiques directe et inverse et la génération de vidéos. À travers un ensemble étendu d'expériences, nous démontrons que l'UVA peut servir de solution générale pour une large gamme de tâches robotiques, telles que l'apprentissage de politiques, la dynamique directe/inverse et la prédiction d'observations vidéo, sans compromettre les performances par rapport aux méthodes spécifiquement conçues pour des applications particulières. Les résultats sont mieux visualisés sur https://unified-video-action-model.github.io/.
English
A unified video and action model holds significant promise for robotics,
where videos provide rich scene information for action prediction, and actions
provide dynamics information for video prediction. However, effectively
combining video generation and action prediction remains challenging, and
current video generation-based methods struggle to match the performance of
direct policy learning in action accuracy and inference speed. To bridge this
gap, we introduce the Unified Video Action model (UVA), which jointly optimizes
video and action predictions to achieve both high accuracy and efficient action
inference. The key lies in learning a joint video-action latent representation
and decoupling video-action decoding. The joint latent representation bridges
the visual and action domains, effectively modeling the relationship between
video and action sequences. Meanwhile, the decoupled decoding, powered by two
lightweight diffusion heads, enables high-speed action inference by bypassing
video generation during inference. Such a unified framework further enables
versatile functionality through masked input training. By selectively masking
actions or videos, a single model can tackle diverse tasks beyond policy
learning, such as forward and inverse dynamics modeling and video generation.
Via an extensive set of experiments, we demonstrate that UVA can serve as a
general-purpose solution for a wide range of robotics tasks, such as policy
learning, forward/inverse dynamics and video observation prediction, without
compromising performance compared to methods tailored for specific
applications. Results are best viewed on
https://unified-video-action-model.github.io/.Summary
AI-Generated Summary