UniVLA: Aprendendo a Agir em Qualquer Lugar com Ações Latentes Centradas em Tarefas
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions
May 9, 2025
Autores: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
cs.AI
Resumo
Um robô generalista deve desempenhar suas funções de forma eficaz em diversos ambientes. No entanto, a maioria das abordagens existentes depende fortemente da ampliação de dados anotados com ações para aprimorar suas capacidades. Consequentemente, elas costumam ser limitadas a uma única especificação física e enfrentam dificuldades para aprender conhecimentos transferíveis entre diferentes configurações e ambientes. Para enfrentar essas limitações, propomos o UniVLA, um novo framework para aprender políticas visão-linguagem-ação (VLA) que transcendem configurações físicas. Nossa principal inovação é derivar representações de ações centradas em tarefas a partir de vídeos, utilizando um modelo de ação latente. Isso nos permite explorar dados extensos em uma ampla gama de configurações e perspectivas. Para mitigar o efeito de dinâmicas irrelevantes à tarefa, incorporamos instruções em linguagem natural e estabelecemos um modelo de ação latente no espaço de características DINO. A política generalista, aprendida a partir de vídeos em escala da internet, pode ser implantada em diversos robôs por meio de uma decodificação eficiente de ações latentes. Obtivemos resultados de ponta em vários benchmarks de manipulação e navegação, além de implantações em robôs reais. O UniVLA alcança desempenho superior ao OpenVLA com menos de 1/20 do custo computacional de pré-treinamento e 1/10 dos dados de ajuste fino. Melhorias contínuas de desempenho são observadas à medida que dados heterogêneos, incluindo até vídeos humanos, são incorporados ao pipeline de treinamento. Os resultados destacam o potencial do UniVLA para facilitar o aprendizado escalável e eficiente de políticas robóticas.
English
A generalist robot should perform effectively across various environments.
However, most existing approaches heavily rely on scaling action-annotated data
to enhance their capabilities. Consequently, they are often limited to single
physical specification and struggle to learn transferable knowledge across
different embodiments and environments. To confront these limitations, we
propose UniVLA, a new framework for learning cross-embodiment
vision-language-action (VLA) policies. Our key innovation is to derive
task-centric action representations from videos with a latent action model.
This enables us to exploit extensive data across a wide spectrum of embodiments
and perspectives. To mitigate the effect of task-irrelevant dynamics, we
incorporate language instructions and establish a latent action model within
the DINO feature space. Learned from internet-scale videos, the generalist
policy can be deployed to various robots through efficient latent action
decoding. We obtain state-of-the-art results across multiple manipulation and
navigation benchmarks, as well as real-robot deployments. UniVLA achieves
superior performance over OpenVLA with less than 1/20 of pretraining compute
and 1/10 of downstream data. Continuous performance improvements are observed
as heterogeneous data, even including human videos, are incorporated into the
training pipeline. The results underscore UniVLA's potential to facilitate
scalable and efficient robot policy learning.