Modelo Unificado de Ação em Vídeo
Unified Video Action Model
February 28, 2025
Autores: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song
cs.AI
Resumo
Um modelo unificado de vídeo e ação apresenta um potencial significativo para a robótica, onde os vídeos fornecem informações ricas sobre a cena para a previsão de ações, e as ações fornecem informações dinâmicas para a previsão de vídeos. No entanto, combinar efetivamente a geração de vídeos e a previsão de ações continua sendo um desafio, e os métodos atuais baseados em geração de vídeos têm dificuldade em igualar o desempenho do aprendizado direto de políticas em termos de precisão de ações e velocidade de inferência. Para preencher essa lacuna, introduzimos o Modelo Unificado de Vídeo e Ação (UVA), que otimiza conjuntamente as previsões de vídeo e ação para alcançar alta precisão e inferência eficiente de ações. A chave está em aprender uma representação latente conjunta de vídeo e ação e desacoplar a decodificação de vídeo e ação. A representação latente conjunta conecta os domínios visual e de ação, modelando efetivamente a relação entre sequências de vídeo e ação. Enquanto isso, a decodificação desacoplada, impulsionada por duas cabeças de difusão leves, permite inferência de ação em alta velocidade ao contornar a geração de vídeos durante a inferência. Tal estrutura unificada permite ainda funcionalidades versáteis por meio do treinamento com entradas mascaradas. Ao mascarar seletivamente ações ou vídeos, um único modelo pode lidar com diversas tarefas além do aprendizado de políticas, como modelagem de dinâmica direta e inversa e geração de vídeos. Por meio de um extenso conjunto de experimentos, demonstramos que o UVA pode servir como uma solução de propósito geral para uma ampla gama de tarefas de robótica, como aprendizado de políticas, dinâmica direta/inversa e previsão de observação de vídeo, sem comprometer o desempenho em comparação com métodos específicos para aplicações particulares. Os resultados podem ser melhor visualizados em https://unified-video-action-model.github.io/.
English
A unified video and action model holds significant promise for robotics,
where videos provide rich scene information for action prediction, and actions
provide dynamics information for video prediction. However, effectively
combining video generation and action prediction remains challenging, and
current video generation-based methods struggle to match the performance of
direct policy learning in action accuracy and inference speed. To bridge this
gap, we introduce the Unified Video Action model (UVA), which jointly optimizes
video and action predictions to achieve both high accuracy and efficient action
inference. The key lies in learning a joint video-action latent representation
and decoupling video-action decoding. The joint latent representation bridges
the visual and action domains, effectively modeling the relationship between
video and action sequences. Meanwhile, the decoupled decoding, powered by two
lightweight diffusion heads, enables high-speed action inference by bypassing
video generation during inference. Such a unified framework further enables
versatile functionality through masked input training. By selectively masking
actions or videos, a single model can tackle diverse tasks beyond policy
learning, such as forward and inverse dynamics modeling and video generation.
Via an extensive set of experiments, we demonstrate that UVA can serve as a
general-purpose solution for a wide range of robotics tasks, such as policy
learning, forward/inverse dynamics and video observation prediction, without
compromising performance compared to methods tailored for specific
applications. Results are best viewed on
https://unified-video-action-model.github.io/.Summary
AI-Generated Summary