統一ビデオ行動モデル
Unified Video Action Model
February 28, 2025
著者: Shuang Li, Yihuai Gao, Dorsa Sadigh, Shuran Song
cs.AI
要旨
ビデオとアクションを統合したモデルは、ロボティクスにおいて大きな可能性を秘めています。ビデオはアクション予測のための豊富なシーン情報を提供し、アクションはビデオ予測のためのダイナミクス情報を提供します。しかし、ビデオ生成とアクション予測を効果的に組み合わせることは依然として困難であり、現在のビデオ生成ベースの手法は、アクションの精度と推論速度において直接的なポリシー学習の性能に匹敵するには至っていません。このギャップを埋めるために、我々はビデオとアクションの予測を共同で最適化し、高い精度と効率的なアクション推論を実現するUnified Video Actionモデル(UVA)を提案します。その鍵は、ビデオとアクションの共同潜在表現を学習し、ビデオとアクションのデコードを分離することにあります。共同潜在表現は、視覚とアクションのドメインを橋渡しし、ビデオとアクションシーケンスの関係を効果的にモデル化します。一方、2つの軽量な拡散ヘッドによって実現される分離デコードは、推論中にビデオ生成をバイパスすることで高速なアクション推論を可能にします。このような統合フレームワークは、マスクされた入力トレーニングを通じて多機能性をさらに実現します。アクションやビデオを選択的にマスクすることで、単一のモデルがポリシー学習を超えた多様なタスク、例えば順方向および逆方向のダイナミクスモデリングやビデオ生成に取り組むことができます。広範な実験を通じて、UVAが特定のアプリケーションに特化した手法と比較しても性能を損なうことなく、ポリシー学習、順方向/逆方向ダイナミクス、ビデオ観測予測など、幅広いロボティクスタスクに対する汎用ソリューションとして機能することを実証します。結果はhttps://unified-video-action-model.github.io/でご覧いただけます。
English
A unified video and action model holds significant promise for robotics,
where videos provide rich scene information for action prediction, and actions
provide dynamics information for video prediction. However, effectively
combining video generation and action prediction remains challenging, and
current video generation-based methods struggle to match the performance of
direct policy learning in action accuracy and inference speed. To bridge this
gap, we introduce the Unified Video Action model (UVA), which jointly optimizes
video and action predictions to achieve both high accuracy and efficient action
inference. The key lies in learning a joint video-action latent representation
and decoupling video-action decoding. The joint latent representation bridges
the visual and action domains, effectively modeling the relationship between
video and action sequences. Meanwhile, the decoupled decoding, powered by two
lightweight diffusion heads, enables high-speed action inference by bypassing
video generation during inference. Such a unified framework further enables
versatile functionality through masked input training. By selectively masking
actions or videos, a single model can tackle diverse tasks beyond policy
learning, such as forward and inverse dynamics modeling and video generation.
Via an extensive set of experiments, we demonstrate that UVA can serve as a
general-purpose solution for a wide range of robotics tasks, such as policy
learning, forward/inverse dynamics and video observation prediction, without
compromising performance compared to methods tailored for specific
applications. Results are best viewed on
https://unified-video-action-model.github.io/.Summary
AI-Generated Summary