Modello Unificato per Azioni Video
Unified Video Action Model
February 28, 2025
Autori: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song
cs.AI
Abstract
Un modello unificato per video e azioni rappresenta una promessa significativa per la robotica, dove i video forniscono informazioni ricche sulla scena per la previsione delle azioni, e le azioni forniscono informazioni dinamiche per la previsione dei video. Tuttavia, combinare efficacemente la generazione di video e la previsione delle azioni rimane una sfida, e i metodi attuali basati sulla generazione di video faticano a raggiungere le prestazioni dell'apprendimento diretto delle politiche in termini di accuratezza delle azioni e velocità di inferenza. Per colmare questa lacuna, introduciamo il modello Unified Video Action (UVA), che ottimizza congiuntamente le previsioni di video e azioni per ottenere sia un'elevata accuratezza che un'inferenza efficiente delle azioni. La chiave risiede nell'apprendimento di una rappresentazione latente congiunta video-azione e nel disaccoppiamento della decodifica video-azione. La rappresentazione latente congiunta collega i domini visivo e delle azioni, modellando efficacemente la relazione tra sequenze video e azioni. Nel frattempo, la decodifica disaccoppiata, alimentata da due teste di diffusione leggere, consente un'inferenza ad alta velocità delle azioni bypassando la generazione di video durante l'inferenza. Tale framework unificato consente ulteriormente una funzionalità versatile attraverso l'addestramento con input mascherati. Mascherando selettivamente azioni o video, un singolo modello può affrontare diverse attività oltre all'apprendimento delle politiche, come la modellazione della dinamica diretta e inversa e la generazione di video. Attraverso un'ampia serie di esperimenti, dimostriamo che UVA può servire come soluzione generica per un'ampia gamma di compiti di robotica, come l'apprendimento delle politiche, la dinamica diretta/inversa e la previsione delle osservazioni video, senza compromettere le prestazioni rispetto a metodi specifici per applicazioni particolari. I risultati sono meglio visualizzati su https://unified-video-action-model.github.io/.
English
A unified video and action model holds significant promise for robotics,
where videos provide rich scene information for action prediction, and actions
provide dynamics information for video prediction. However, effectively
combining video generation and action prediction remains challenging, and
current video generation-based methods struggle to match the performance of
direct policy learning in action accuracy and inference speed. To bridge this
gap, we introduce the Unified Video Action model (UVA), which jointly optimizes
video and action predictions to achieve both high accuracy and efficient action
inference. The key lies in learning a joint video-action latent representation
and decoupling video-action decoding. The joint latent representation bridges
the visual and action domains, effectively modeling the relationship between
video and action sequences. Meanwhile, the decoupled decoding, powered by two
lightweight diffusion heads, enables high-speed action inference by bypassing
video generation during inference. Such a unified framework further enables
versatile functionality through masked input training. By selectively masking
actions or videos, a single model can tackle diverse tasks beyond policy
learning, such as forward and inverse dynamics modeling and video generation.
Via an extensive set of experiments, we demonstrate that UVA can serve as a
general-purpose solution for a wide range of robotics tasks, such as policy
learning, forward/inverse dynamics and video observation prediction, without
compromising performance compared to methods tailored for specific
applications. Results are best viewed on
https://unified-video-action-model.github.io/.Summary
AI-Generated Summary