UniVLA : Apprendre à agir partout grâce à des actions latentes centrées sur la tâche
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
May 9, 2025
papers.authors: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
cs.AI
papers.abstract
Un robot généraliste devrait être performant dans divers environnements. Cependant, la plupart des approches existantes reposent fortement sur la mise à l'échelle de données annotées d'actions pour améliorer leurs capacités. Par conséquent, elles sont souvent limitées à une seule spécification physique et peinent à acquérir des connaissances transférables entre différentes incarnations et environnements. Pour surmonter ces limitations, nous proposons UniVLA, un nouveau cadre pour l'apprentissage de politiques vision-langue-action (VLA) inter-incarnations. Notre innovation clé consiste à dériver des représentations d'actions centrées sur la tâche à partir de vidéos grâce à un modèle d'actions latentes. Cela nous permet d'exploiter des données étendues couvrant un large spectre d'incarnations et de perspectives. Pour atténuer l'effet des dynamiques non pertinentes à la tâche, nous intégrons des instructions langagières et établissons un modèle d'actions latentes dans l'espace de caractéristiques DINO. Apprise à partir de vidéos à l'échelle d'Internet, la politique généraliste peut être déployée sur divers robots via un décodage efficace des actions latentes. Nous obtenons des résultats de pointe sur plusieurs benchmarks de manipulation et de navigation, ainsi que sur des déploiements réels de robots. UniVLA surpasse OpenVLA avec moins de 1/20 de la puissance de calcul en pré-entraînement et 1/10 des données en aval. Des améliorations continues des performances sont observées lorsque des données hétérogènes, y compris des vidéos humaines, sont intégrées dans le pipeline d'entraînement. Les résultats soulignent le potentiel d'UniVLA à faciliter un apprentissage de politiques robotiques scalable et efficace.
English
A generalist robot should perform effectively across various environments.
However, most existing approaches heavily rely on scaling action-annotated data
to enhance their capabilities. Consequently, they are often limited to single
physical specification and struggle to learn transferable knowledge across
different embodiments and environments. To confront these limitations, we
propose UniVLA, a new framework for learning cross-embodiment
vision-language-action (VLA) policies. Our key innovation is to derive
task-centric action representations from videos with a latent action model.
This enables us to exploit extensive data across a wide spectrum of embodiments
and perspectives. To mitigate the effect of task-irrelevant dynamics, we
incorporate language instructions and establish a latent action model within
the DINO feature space. Learned from internet-scale videos, the generalist
policy can be deployed to various robots through efficient latent action
decoding. We obtain state-of-the-art results across multiple manipulation and
navigation benchmarks, as well as real-robot deployments. UniVLA achieves
superior performance over OpenVLA with less than 1/20 of pretraining compute
and 1/10 of downstream data. Continuous performance improvements are observed
as heterogeneous data, even including human videos, are incorporated into the
training pipeline. The results underscore UniVLA's potential to facilitate
scalable and efficient robot policy learning.