통합 비디오 동작 모델
Unified Video Action Model
February 28, 2025
저자: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song
cs.AI
초록
통합 비디오 및 액션 모델은 로보틱스 분야에서 상당한 가능성을 지니고 있습니다. 비디오는 액션 예측을 위한 풍부한 장면 정보를 제공하고, 액션은 비디오 예측을 위한 동역학 정보를 제공하기 때문입니다. 그러나 비디오 생성과 액션 예측을 효과적으로 결합하는 것은 여전히 어려운 과제이며, 현재의 비디오 생성 기반 방법들은 액션 정확도와 추론 속도에서 직접 정책 학습의 성능을 따라잡지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 비디오와 액션 예측을 공동으로 최적화하여 높은 정확도와 효율적인 액션 추론을 모두 달성하는 통합 비디오 액션 모델(UVA)을 소개합니다. 핵심은 공동 비디오-액션 잠재 표현을 학습하고 비디오-액션 디코딩을 분리하는 데 있습니다. 공동 잠재 표현은 비디오와 액션 도메인을 연결하여 비디오와 액션 시퀀스 간의 관계를 효과적으로 모델링합니다. 한편, 두 개의 경량 디퓨전 헤드로 구동되는 분리된 디코딩은 추론 중 비디오 생성을 우회함으로써 고속 액션 추론을 가능하게 합니다. 이러한 통합 프레임워크는 마스크된 입력 훈련을 통해 다양한 기능을 더욱 가능하게 합니다. 액션이나 비디오를 선택적으로 마스킹함으로써, 단일 모델이 정책 학습을 넘어 전방 및 역동역학 모델링, 비디오 생성과 같은 다양한 작업을 해결할 수 있습니다. 광범위한 실험을 통해, 우리는 UVA가 특정 애플리케이션에 맞춰진 방법들과 비교하여 성능 저하 없이 정책 학습, 전방/역동역학 및 비디오 관측 예측과 같은 다양한 로보틱스 작업을 위한 일반적인 솔루션으로 사용될 수 있음을 입증합니다. 결과는 https://unified-video-action-model.github.io/에서 확인할 수 있습니다.
English
A unified video and action model holds significant promise for robotics,
where videos provide rich scene information for action prediction, and actions
provide dynamics information for video prediction. However, effectively
combining video generation and action prediction remains challenging, and
current video generation-based methods struggle to match the performance of
direct policy learning in action accuracy and inference speed. To bridge this
gap, we introduce the Unified Video Action model (UVA), which jointly optimizes
video and action predictions to achieve both high accuracy and efficient action
inference. The key lies in learning a joint video-action latent representation
and decoupling video-action decoding. The joint latent representation bridges
the visual and action domains, effectively modeling the relationship between
video and action sequences. Meanwhile, the decoupled decoding, powered by two
lightweight diffusion heads, enables high-speed action inference by bypassing
video generation during inference. Such a unified framework further enables
versatile functionality through masked input training. By selectively masking
actions or videos, a single model can tackle diverse tasks beyond policy
learning, such as forward and inverse dynamics modeling and video generation.
Via an extensive set of experiments, we demonstrate that UVA can serve as a
general-purpose solution for a wide range of robotics tasks, such as policy
learning, forward/inverse dynamics and video observation prediction, without
compromising performance compared to methods tailored for specific
applications. Results are best viewed on
https://unified-video-action-model.github.io/.Summary
AI-Generated Summary