ChatPaper.aiChatPaper

UniVLA: Обучение действиям в любом месте с использованием латентных действий, ориентированных на задачи

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

May 9, 2025
Авторы: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
cs.AI

Аннотация

Универсальный робот должен эффективно выполнять задачи в различных средах. Однако большинство существующих подходов в значительной степени полагаются на масштабирование данных с аннотированными действиями для улучшения своих возможностей. В результате они часто ограничены одной физической спецификацией и испытывают трудности с изучением переносимых знаний между различными воплощениями и средами. Чтобы преодолеть эти ограничения, мы предлагаем UniVLA — новый фреймворк для обучения кросс-воплощенческим политикам, объединяющим зрение, язык и действия (VLA). Наше ключевое нововведение заключается в извлечении ориентированных на задачу представлений действий из видео с помощью модели латентных действий. Это позволяет нам использовать обширные данные из широкого спектра воплощений и перспектив. Чтобы минимизировать влияние динамики, не связанной с задачей, мы интегрируем языковые инструкции и создаем модель латентных действий в пространстве признаков DINO. Универсальная политика, обученная на видео интернет-масштаба, может быть развернута на различных роботах через эффективное декодирование латентных действий. Мы достигаем передовых результатов на множестве тестов по манипуляции и навигации, а также в реальных развертываниях на роботах. UniVLA демонстрирует превосходную производительность по сравнению с OpenVLA, используя менее 1/20 вычислительных ресурсов для предварительного обучения и 1/10 данных для дообучения. Постоянное улучшение производительности наблюдается при включении в процесс обучения разнородных данных, включая даже видео с участием людей. Результаты подчеркивают потенциал UniVLA для обеспечения масштабируемого и эффективного обучения политик роботов.
English
A generalist robot should perform effectively across various environments. However, most existing approaches heavily rely on scaling action-annotated data to enhance their capabilities. Consequently, they are often limited to single physical specification and struggle to learn transferable knowledge across different embodiments and environments. To confront these limitations, we propose UniVLA, a new framework for learning cross-embodiment vision-language-action (VLA) policies. Our key innovation is to derive task-centric action representations from videos with a latent action model. This enables us to exploit extensive data across a wide spectrum of embodiments and perspectives. To mitigate the effect of task-irrelevant dynamics, we incorporate language instructions and establish a latent action model within the DINO feature space. Learned from internet-scale videos, the generalist policy can be deployed to various robots through efficient latent action decoding. We obtain state-of-the-art results across multiple manipulation and navigation benchmarks, as well as real-robot deployments. UniVLA achieves superior performance over OpenVLA with less than 1/20 of pretraining compute and 1/10 of downstream data. Continuous performance improvements are observed as heterogeneous data, even including human videos, are incorporated into the training pipeline. The results underscore UniVLA's potential to facilitate scalable and efficient robot policy learning.
PDF252May 12, 2025