UniVLA: Apprendimento per Agire Ovunque con Azioni Latenti Centrate sul Compito
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
May 9, 2025
Autori: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
cs.AI
Abstract
Un robot generalista dovrebbe essere in grado di operare efficacemente in vari ambienti. Tuttavia, la maggior parte degli approcci esistenti si basa fortemente sulla scalabilità di dati annotati con azioni per migliorare le proprie capacità. Di conseguenza, questi approcci sono spesso limitati a una singola specifica fisica e faticano a imparare conoscenze trasferibili tra diverse incarnazioni e ambienti. Per affrontare queste limitazioni, proponiamo UniVLA, un nuovo framework per l'apprendimento di politiche visione-linguaggio-azione (VLA) trasversali alle incarnazioni. La nostra innovazione chiave consiste nel derivare rappresentazioni di azioni centrate sul compito da video utilizzando un modello di azione latente. Ciò ci consente di sfruttare dati estesi su un ampio spettro di incarnazioni e prospettive. Per mitigare l'effetto delle dinamiche irrilevanti per il compito, incorporiamo istruzioni linguistiche e stabiliamo un modello di azione latente all'interno dello spazio delle feature DINO. Appresa da video su scala internet, la politica generalista può essere implementata su vari robot attraverso una decodifica efficiente delle azioni latenti. Otteniamo risultati all'avanguardia su più benchmark di manipolazione e navigazione, nonché su implementazioni con robot reali. UniVLA raggiunge prestazioni superiori rispetto a OpenVLA con meno di 1/20 del calcolo di pre-addestramento e 1/10 dei dati a valle. Si osservano miglioramenti continui delle prestazioni man mano che dati eterogenei, inclusi persino video umani, vengono incorporati nel processo di addestramento. I risultati sottolineano il potenziale di UniVLA nel facilitare un apprendimento scalabile ed efficiente delle politiche robotiche.
English
A generalist robot should perform effectively across various environments.
However, most existing approaches heavily rely on scaling action-annotated data
to enhance their capabilities. Consequently, they are often limited to single
physical specification and struggle to learn transferable knowledge across
different embodiments and environments. To confront these limitations, we
propose UniVLA, a new framework for learning cross-embodiment
vision-language-action (VLA) policies. Our key innovation is to derive
task-centric action representations from videos with a latent action model.
This enables us to exploit extensive data across a wide spectrum of embodiments
and perspectives. To mitigate the effect of task-irrelevant dynamics, we
incorporate language instructions and establish a latent action model within
the DINO feature space. Learned from internet-scale videos, the generalist
policy can be deployed to various robots through efficient latent action
decoding. We obtain state-of-the-art results across multiple manipulation and
navigation benchmarks, as well as real-robot deployments. UniVLA achieves
superior performance over OpenVLA with less than 1/20 of pretraining compute
and 1/10 of downstream data. Continuous performance improvements are observed
as heterogeneous data, even including human videos, are incorporated into the
training pipeline. The results underscore UniVLA's potential to facilitate
scalable and efficient robot policy learning.