ChatPaper.aiChatPaper

Modello Unificato per Azioni Video

Unified Video Action Model

February 28, 2025
Autori: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song
cs.AI

Abstract

Un modello unificato per video e azioni rappresenta una promessa significativa per la robotica, dove i video forniscono informazioni ricche sulla scena per la previsione delle azioni, e le azioni forniscono informazioni dinamiche per la previsione dei video. Tuttavia, combinare efficacemente la generazione di video e la previsione delle azioni rimane una sfida, e i metodi attuali basati sulla generazione di video faticano a raggiungere le prestazioni dell'apprendimento diretto delle politiche in termini di accuratezza delle azioni e velocità di inferenza. Per colmare questa lacuna, introduciamo il modello Unified Video Action (UVA), che ottimizza congiuntamente le previsioni di video e azioni per ottenere sia un'elevata accuratezza che un'inferenza efficiente delle azioni. La chiave risiede nell'apprendimento di una rappresentazione latente congiunta video-azione e nel disaccoppiamento della decodifica video-azione. La rappresentazione latente congiunta collega i domini visivo e delle azioni, modellando efficacemente la relazione tra sequenze video e azioni. Nel frattempo, la decodifica disaccoppiata, alimentata da due teste di diffusione leggere, consente un'inferenza ad alta velocità delle azioni bypassando la generazione di video durante l'inferenza. Tale framework unificato consente ulteriormente una funzionalità versatile attraverso l'addestramento con input mascherati. Mascherando selettivamente azioni o video, un singolo modello può affrontare diverse attività oltre all'apprendimento delle politiche, come la modellazione della dinamica diretta e inversa e la generazione di video. Attraverso un'ampia serie di esperimenti, dimostriamo che UVA può servire come soluzione generica per un'ampia gamma di compiti di robotica, come l'apprendimento delle politiche, la dinamica diretta/inversa e la previsione delle osservazioni video, senza compromettere le prestazioni rispetto a metodi specifici per applicazioni particolari. I risultati sono meglio visualizzati su https://unified-video-action-model.github.io/.
English
A unified video and action model holds significant promise for robotics, where videos provide rich scene information for action prediction, and actions provide dynamics information for video prediction. However, effectively combining video generation and action prediction remains challenging, and current video generation-based methods struggle to match the performance of direct policy learning in action accuracy and inference speed. To bridge this gap, we introduce the Unified Video Action model (UVA), which jointly optimizes video and action predictions to achieve both high accuracy and efficient action inference. The key lies in learning a joint video-action latent representation and decoupling video-action decoding. The joint latent representation bridges the visual and action domains, effectively modeling the relationship between video and action sequences. Meanwhile, the decoupled decoding, powered by two lightweight diffusion heads, enables high-speed action inference by bypassing video generation during inference. Such a unified framework further enables versatile functionality through masked input training. By selectively masking actions or videos, a single model can tackle diverse tasks beyond policy learning, such as forward and inverse dynamics modeling and video generation. Via an extensive set of experiments, we demonstrate that UVA can serve as a general-purpose solution for a wide range of robotics tasks, such as policy learning, forward/inverse dynamics and video observation prediction, without compromising performance compared to methods tailored for specific applications. Results are best viewed on https://unified-video-action-model.github.io/.

Summary

AI-Generated Summary

PDF142March 5, 2025