UniVLA: Lernen, überall zu handeln mit aufgabenorientierten latenten Aktionen
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
May 9, 2025
Autoren: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
cs.AI
Zusammenfassung
Ein generalistischer Roboter sollte effektiv in verschiedenen Umgebungen agieren können. Die meisten bestehenden Ansätze stützen sich jedoch stark auf die Skalierung von handlungsannotierten Daten, um ihre Fähigkeiten zu erweitern. Dadurch sind sie oft auf eine einzige physikalische Spezifikation beschränkt und haben Schwierigkeiten, übertragbares Wissen über verschiedene Ausführungen und Umgebungen hinweg zu erlernen. Um diese Einschränkungen zu überwinden, schlagen wir UniVLA vor, ein neues Framework für das Erlernen von Vision-Sprache-Handlung (VLA)-Policies über verschiedene Ausführungen hinweg. Unsere zentrale Innovation besteht darin, aufgabenbezogene Handlungsrepräsentationen aus Videos mit einem latenten Handlungsmodell abzuleiten. Dies ermöglicht es uns, umfangreiche Daten über ein breites Spektrum von Ausführungen und Perspektiven zu nutzen. Um den Einfluss von aufgabenirrelevanten Dynamiken zu minimieren, integrieren wir Sprachanweisungen und etablieren ein latentes Handlungsmodell im DINO-Feature-Raum. Die aus internetweiten Videos erlernte generalistische Policy kann durch effiziente Dekodierung latenter Handlungen auf verschiedene Roboter übertragen werden. Wir erzielen state-of-the-art Ergebnisse in mehreren Manipulations- und Navigations-Benchmarks sowie in realen Roboter-Einsätzen. UniVLA übertrifft OpenVLA mit weniger als 1/20 des Vorab-Trainingsrechenaufwands und 1/10 der nachgelagerten Daten. Kontinuierliche Leistungssteigerungen werden beobachtet, wenn heterogene Daten, einschließlich menschlicher Videos, in den Trainingsprozess integriert werden. Die Ergebnisse unterstreichen das Potenzial von UniVLA, skalierbares und effizientes Lernen von Roboter-Policies zu ermöglichen.
English
A generalist robot should perform effectively across various environments.
However, most existing approaches heavily rely on scaling action-annotated data
to enhance their capabilities. Consequently, they are often limited to single
physical specification and struggle to learn transferable knowledge across
different embodiments and environments. To confront these limitations, we
propose UniVLA, a new framework for learning cross-embodiment
vision-language-action (VLA) policies. Our key innovation is to derive
task-centric action representations from videos with a latent action model.
This enables us to exploit extensive data across a wide spectrum of embodiments
and perspectives. To mitigate the effect of task-irrelevant dynamics, we
incorporate language instructions and establish a latent action model within
the DINO feature space. Learned from internet-scale videos, the generalist
policy can be deployed to various robots through efficient latent action
decoding. We obtain state-of-the-art results across multiple manipulation and
navigation benchmarks, as well as real-robot deployments. UniVLA achieves
superior performance over OpenVLA with less than 1/20 of pretraining compute
and 1/10 of downstream data. Continuous performance improvements are observed
as heterogeneous data, even including human videos, are incorporated into the
training pipeline. The results underscore UniVLA's potential to facilitate
scalable and efficient robot policy learning.Summary
AI-Generated Summary