ChatPaper.aiChatPaper

UniVLA: Leren om overal te handelen met taakgerichte latente acties

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

May 9, 2025
Auteurs: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
cs.AI

Samenvatting

Een generalistische robot zou effectief moeten presteren in diverse omgevingen. De meeste bestaande benaderingen zijn echter sterk afhankelijk van het schalen van actie-geannoteerde data om hun capaciteiten te verbeteren. Hierdoor zijn ze vaak beperkt tot een enkele fysieke specificatie en hebben ze moeite om overdraagbare kennis te leren over verschillende belichamingen en omgevingen. Om deze beperkingen aan te pakken, stellen we UniVLA voor, een nieuw raamwerk voor het leren van cross-embodiment vision-language-action (VLA) beleidsregels. Onze belangrijkste innovatie is het afleiden van taakgerichte actie-representaties uit video's met een latent actiemodel. Hierdoor kunnen we uitgebreide data benutten over een breed spectrum van belichamingen en perspectieven. Om het effect van taak-irrelevante dynamiek te verminderen, integreren we taalinstructies en vestigen we een latent actiemodel binnen de DINO-featureruimte. Het generalistische beleid, geleerd van internet-schaal video's, kan worden ingezet op verschillende robots door efficiënte decodering van latente acties. We behalen state-of-the-art resultaten op meerdere manipulatie- en navigatiebenchmarks, evenals bij echte robotimplementaties. UniVLA bereikt superieure prestaties ten opzichte van OpenVLA met minder dan 1/20 van de pretrainingsrekenkracht en 1/10 van de downstream data. Continue prestatieverbeteringen worden waargenomen wanneer heterogene data, inclusief menselijke video's, worden opgenomen in de trainingspijplijn. De resultaten onderstrepen het potentieel van UniVLA om schaalbaar en efficiënt robotbeleidsleren te faciliteren.
English
A generalist robot should perform effectively across various environments. However, most existing approaches heavily rely on scaling action-annotated data to enhance their capabilities. Consequently, they are often limited to single physical specification and struggle to learn transferable knowledge across different embodiments and environments. To confront these limitations, we propose UniVLA, a new framework for learning cross-embodiment vision-language-action (VLA) policies. Our key innovation is to derive task-centric action representations from videos with a latent action model. This enables us to exploit extensive data across a wide spectrum of embodiments and perspectives. To mitigate the effect of task-irrelevant dynamics, we incorporate language instructions and establish a latent action model within the DINO feature space. Learned from internet-scale videos, the generalist policy can be deployed to various robots through efficient latent action decoding. We obtain state-of-the-art results across multiple manipulation and navigation benchmarks, as well as real-robot deployments. UniVLA achieves superior performance over OpenVLA with less than 1/20 of pretraining compute and 1/10 of downstream data. Continuous performance improvements are observed as heterogeneous data, even including human videos, are incorporated into the training pipeline. The results underscore UniVLA's potential to facilitate scalable and efficient robot policy learning.
PDF242May 12, 2025