ChatPaper.aiChatPaper

Modelo Unificado de Acción en Video

Unified Video Action Model

February 28, 2025
Autores: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song
cs.AI

Resumen

Un modelo unificado de video y acción tiene un potencial significativo en robótica, donde los videos proporcionan información rica de la escena para la predicción de acciones, y las acciones ofrecen información dinámica para la predicción de videos. Sin embargo, combinar de manera efectiva la generación de videos y la predicción de acciones sigue siendo un desafío, y los métodos actuales basados en generación de videos tienen dificultades para igualar el rendimiento del aprendizaje directo de políticas en precisión de acciones y velocidad de inferencia. Para cerrar esta brecha, presentamos el Modelo Unificado de Video y Acción (UVA), que optimiza conjuntamente las predicciones de video y acción para lograr tanto alta precisión como inferencia eficiente de acciones. La clave radica en aprender una representación latente conjunta de video-acción y desacoplar la decodificación de video-acción. La representación latente conjunta conecta los dominios visual y de acción, modelando efectivamente la relación entre secuencias de video y acción. Mientras tanto, la decodificación desacoplada, impulsada por dos cabezales de difusión ligeros, permite una inferencia de acciones de alta velocidad al evitar la generación de videos durante la inferencia. Este marco unificado permite además una funcionalidad versátil mediante el entrenamiento con entradas enmascaradas. Al enmascarar selectivamente acciones o videos, un solo modelo puede abordar diversas tareas más allá del aprendizaje de políticas, como el modelado de dinámicas directas e inversas y la generación de videos. A través de un extenso conjunto de experimentos, demostramos que UVA puede servir como una solución de propósito general para una amplia gama de tareas de robótica, como el aprendizaje de políticas, la predicción de dinámicas directas/inversas y la predicción de observaciones de video, sin comprometer el rendimiento en comparación con métodos diseñados para aplicaciones específicas. Los resultados se pueden ver mejor en https://unified-video-action-model.github.io/.
English
A unified video and action model holds significant promise for robotics, where videos provide rich scene information for action prediction, and actions provide dynamics information for video prediction. However, effectively combining video generation and action prediction remains challenging, and current video generation-based methods struggle to match the performance of direct policy learning in action accuracy and inference speed. To bridge this gap, we introduce the Unified Video Action model (UVA), which jointly optimizes video and action predictions to achieve both high accuracy and efficient action inference. The key lies in learning a joint video-action latent representation and decoupling video-action decoding. The joint latent representation bridges the visual and action domains, effectively modeling the relationship between video and action sequences. Meanwhile, the decoupled decoding, powered by two lightweight diffusion heads, enables high-speed action inference by bypassing video generation during inference. Such a unified framework further enables versatile functionality through masked input training. By selectively masking actions or videos, a single model can tackle diverse tasks beyond policy learning, such as forward and inverse dynamics modeling and video generation. Via an extensive set of experiments, we demonstrate that UVA can serve as a general-purpose solution for a wide range of robotics tasks, such as policy learning, forward/inverse dynamics and video observation prediction, without compromising performance compared to methods tailored for specific applications. Results are best viewed on https://unified-video-action-model.github.io/.

Summary

AI-Generated Summary

PDF142March 5, 2025