ChatPaper.aiChatPaper

UniVLA: 작업 중심 잠재 행동을 통해 어디서나 행동하는 법 학습

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

May 9, 2025
저자: Qingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li
cs.AI

초록

범용 로봇은 다양한 환경에서 효과적으로 작동해야 합니다. 그러나 기존의 대부분의 접근 방식은 능력을 향상시키기 위해 액션 주석 데이터의 확장에 크게 의존하고 있습니다. 결과적으로, 이러한 방식들은 단일 물리적 사양에 제한되며, 다양한 구현체와 환경 간에 전이 가능한 지식을 학습하는 데 어려움을 겪습니다. 이러한 한계를 극복하기 위해, 우리는 교차 구현체 비전-언어-액션(VLA) 정책을 학습하기 위한 새로운 프레임워크인 UniVLA를 제안합니다. 우리의 핵심 혁신은 잠재 액션 모델을 통해 비디오에서 작업 중심의 액션 표현을 도출하는 것입니다. 이를 통해 다양한 구현체와 관점에 걸친 광범위한 데이터를 활용할 수 있습니다. 작업과 무관한 동적 특성의 영향을 완화하기 위해, 우리는 언어 지시를 통합하고 DINO 특징 공간 내에 잠재 액션 모델을 구축합니다. 인터넷 규모의 비디오로부터 학습된 이 범용 정책은 효율적인 잠재 액션 디코딩을 통해 다양한 로봇에 배포될 수 있습니다. 우리는 여러 조작 및 탐색 벤치마크와 실제 로봇 배포에서 최첨단 결과를 얻었습니다. UniVLA는 사전 학습 계산량의 1/20 미만과 하류 데이터의 1/10로 OpenVLA를 능가하는 성능을 달성합니다. 인간 비디오를 포함한 이질적인 데이터가 학습 파이프라인에 통합됨에 따라 지속적인 성능 개선이 관찰됩니다. 이러한 결과는 UniVLA가 확장 가능하고 효율적인 로봇 정책 학습을 촉진할 잠재력을 가지고 있음을 강조합니다.
English
A generalist robot should perform effectively across various environments. However, most existing approaches heavily rely on scaling action-annotated data to enhance their capabilities. Consequently, they are often limited to single physical specification and struggle to learn transferable knowledge across different embodiments and environments. To confront these limitations, we propose UniVLA, a new framework for learning cross-embodiment vision-language-action (VLA) policies. Our key innovation is to derive task-centric action representations from videos with a latent action model. This enables us to exploit extensive data across a wide spectrum of embodiments and perspectives. To mitigate the effect of task-irrelevant dynamics, we incorporate language instructions and establish a latent action model within the DINO feature space. Learned from internet-scale videos, the generalist policy can be deployed to various robots through efficient latent action decoding. We obtain state-of-the-art results across multiple manipulation and navigation benchmarks, as well as real-robot deployments. UniVLA achieves superior performance over OpenVLA with less than 1/20 of pretraining compute and 1/10 of downstream data. Continuous performance improvements are observed as heterogeneous data, even including human videos, are incorporated into the training pipeline. The results underscore UniVLA's potential to facilitate scalable and efficient robot policy learning.

Summary

AI-Generated Summary

PDF182May 12, 2025