UniVLA: Leren om overal te handelen met taakgerichte latente acties
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
May 9, 2025
Auteurs: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
cs.AI
Samenvatting
Een generalistische robot zou effectief moeten presteren in diverse omgevingen.
De meeste bestaande benaderingen zijn echter sterk afhankelijk van het schalen van actie-geannoteerde data
om hun capaciteiten te verbeteren. Hierdoor zijn ze vaak beperkt tot een enkele
fysieke specificatie en hebben ze moeite om overdraagbare kennis te leren over
verschillende belichamingen en omgevingen. Om deze beperkingen aan te pakken, stellen we
UniVLA voor, een nieuw raamwerk voor het leren van cross-embodiment
vision-language-action (VLA) beleidsregels. Onze belangrijkste innovatie is het afleiden van
taakgerichte actie-representaties uit video's met een latent actiemodel.
Hierdoor kunnen we uitgebreide data benutten over een breed spectrum van belichamingen
en perspectieven. Om het effect van taak-irrelevante dynamiek te verminderen, integreren we
taalinstructies en vestigen we een latent actiemodel binnen
de DINO-featureruimte. Het generalistische beleid, geleerd van internet-schaal video's, kan worden
ingezet op verschillende robots door efficiënte decodering van latente acties.
We behalen state-of-the-art resultaten op meerdere manipulatie- en
navigatiebenchmarks, evenals bij echte robotimplementaties. UniVLA bereikt
superieure prestaties ten opzichte van OpenVLA met minder dan 1/20 van de pretrainingsrekenkracht
en 1/10 van de downstream data. Continue prestatieverbeteringen worden waargenomen
wanneer heterogene data, inclusief menselijke video's, worden opgenomen in de
trainingspijplijn. De resultaten onderstrepen het potentieel van UniVLA om
schaalbaar en efficiënt robotbeleidsleren te faciliteren.
English
A generalist robot should perform effectively across various environments.
However, most existing approaches heavily rely on scaling action-annotated data
to enhance their capabilities. Consequently, they are often limited to single
physical specification and struggle to learn transferable knowledge across
different embodiments and environments. To confront these limitations, we
propose UniVLA, a new framework for learning cross-embodiment
vision-language-action (VLA) policies. Our key innovation is to derive
task-centric action representations from videos with a latent action model.
This enables us to exploit extensive data across a wide spectrum of embodiments
and perspectives. To mitigate the effect of task-irrelevant dynamics, we
incorporate language instructions and establish a latent action model within
the DINO feature space. Learned from internet-scale videos, the generalist
policy can be deployed to various robots through efficient latent action
decoding. We obtain state-of-the-art results across multiple manipulation and
navigation benchmarks, as well as real-robot deployments. UniVLA achieves
superior performance over OpenVLA with less than 1/20 of pretraining compute
and 1/10 of downstream data. Continuous performance improvements are observed
as heterogeneous data, even including human videos, are incorporated into the
training pipeline. The results underscore UniVLA's potential to facilitate
scalable and efficient robot policy learning.