UniVLA:タスク中心の潜在行動によるどこでも行動する学習
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
May 9, 2025
著者: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
cs.AI
要旨
汎用ロボットは、様々な環境下で効果的に動作するべきである。しかし、既存のアプローチの多くは、能力を向上させるためにアクション注釈付きデータのスケーリングに大きく依存している。その結果、単一の物理仕様に限定されやすく、異なる実装形態や環境間で転移可能な知識を学習するのに苦労する。これらの制約に対処するため、我々はクロスエンボディメントの視覚-言語-アクション(VLA)ポリシーを学習する新しいフレームワークであるUniVLAを提案する。我々の重要な革新は、潜在アクションモデルを用いてビデオからタスク中心のアクション表現を導出することである。これにより、幅広い実装形態と視点にわたる大量のデータを活用することが可能となる。タスクに関連しないダイナミクスの影響を軽減するため、言語指示を組み込み、DINO特徴空間内に潜在アクションモデルを確立する。インターネット規模のビデオから学習された汎用ポリシーは、効率的な潜在アクション復号を通じて様々なロボットに展開可能である。我々は、複数の操作およびナビゲーションベンチマーク、そして実ロボット展開において、最先端の結果を得た。UniVLAは、OpenVLAを上回る性能を、事前学習計算量の1/20未満、下流データの1/10で達成した。異種データ、さらには人間のビデオさえもトレーニングパイプラインに組み込むことで、継続的な性能向上が観察された。これらの結果は、UniVLAがスケーラブルで効率的なロボットポリシー学習を促進する可能性を強調している。
English
A generalist robot should perform effectively across various environments.
However, most existing approaches heavily rely on scaling action-annotated data
to enhance their capabilities. Consequently, they are often limited to single
physical specification and struggle to learn transferable knowledge across
different embodiments and environments. To confront these limitations, we
propose UniVLA, a new framework for learning cross-embodiment
vision-language-action (VLA) policies. Our key innovation is to derive
task-centric action representations from videos with a latent action model.
This enables us to exploit extensive data across a wide spectrum of embodiments
and perspectives. To mitigate the effect of task-irrelevant dynamics, we
incorporate language instructions and establish a latent action model within
the DINO feature space. Learned from internet-scale videos, the generalist
policy can be deployed to various robots through efficient latent action
decoding. We obtain state-of-the-art results across multiple manipulation and
navigation benchmarks, as well as real-robot deployments. UniVLA achieves
superior performance over OpenVLA with less than 1/20 of pretraining compute
and 1/10 of downstream data. Continuous performance improvements are observed
as heterogeneous data, even including human videos, are incorporated into the
training pipeline. The results underscore UniVLA's potential to facilitate
scalable and efficient robot policy learning.Summary
AI-Generated Summary