UniVLA: Aprendizaje para Actuar en Cualquier Lugar con Acciones Latentes Centradas en Tareas
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
May 9, 2025
Autores: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
cs.AI
Resumen
Un robot generalista debería desempeñarse eficazmente en diversos entornos. Sin embargo, la mayoría de los enfoques existentes dependen en gran medida de escalar datos anotados con acciones para mejorar sus capacidades. Como consecuencia, suelen estar limitados a una única especificación física y tienen dificultades para aprender conocimientos transferibles entre diferentes configuraciones y entornos. Para abordar estas limitaciones, proponemos UniVLA, un nuevo marco para aprender políticas de visión-lenguaje-acción (VLA) entre configuraciones. Nuestra innovación clave es derivar representaciones de acciones centradas en tareas a partir de videos con un modelo de acción latente. Esto nos permite aprovechar datos extensos en un amplio espectro de configuraciones y perspectivas. Para mitigar el efecto de dinámicas irrelevantes para la tarea, incorporamos instrucciones de lenguaje y establecemos un modelo de acción latente dentro del espacio de características DINO. Aprendida a partir de videos a escala de internet, la política generalista puede implementarse en varios robots mediante una decodificación eficiente de acciones latentes. Obtenemos resultados de vanguardia en múltiples puntos de referencia de manipulación y navegación, así como en implementaciones con robots reales. UniVLA logra un rendimiento superior a OpenVLA con menos de 1/20 del cómputo de preentrenamiento y 1/10 de los datos de seguimiento. Se observan mejoras continuas en el rendimiento a medida que se incorporan datos heterogéneos, incluso videos humanos, en el proceso de entrenamiento. Los resultados subrayan el potencial de UniVLA para facilitar el aprendizaje escalable y eficiente de políticas robóticas.
English
A generalist robot should perform effectively across various environments.
However, most existing approaches heavily rely on scaling action-annotated data
to enhance their capabilities. Consequently, they are often limited to single
physical specification and struggle to learn transferable knowledge across
different embodiments and environments. To confront these limitations, we
propose UniVLA, a new framework for learning cross-embodiment
vision-language-action (VLA) policies. Our key innovation is to derive
task-centric action representations from videos with a latent action model.
This enables us to exploit extensive data across a wide spectrum of embodiments
and perspectives. To mitigate the effect of task-irrelevant dynamics, we
incorporate language instructions and establish a latent action model within
the DINO feature space. Learned from internet-scale videos, the generalist
policy can be deployed to various robots through efficient latent action
decoding. We obtain state-of-the-art results across multiple manipulation and
navigation benchmarks, as well as real-robot deployments. UniVLA achieves
superior performance over OpenVLA with less than 1/20 of pretraining compute
and 1/10 of downstream data. Continuous performance improvements are observed
as heterogeneous data, even including human videos, are incorporated into the
training pipeline. The results underscore UniVLA's potential to facilitate
scalable and efficient robot policy learning.