ChatPaper.aiChatPaper

Унифицированная модель "Видение-Язык-Действие"

Unified Vision-Language-Action Model

June 24, 2025
Авторы: Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang
cs.AI

Аннотация

Модели, объединяющие зрение, язык и действия (Vision-Language-Action models, VLAs), привлекают значительное внимание благодаря своему потенциалу в развитии роботизированных манипуляций. Однако предыдущие подходы в основном полагаются на общие способности к пониманию моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), для генерации сигналов действий, часто упуская из виду богатую временную и причинно-следственную структуру, заложенную в визуальных наблюдениях. В данной статье мы представляем UniVLA — унифицированную и нативную мультимодальную модель VLA, которая авторегрессивно моделирует сигналы зрения, языка и действий в виде последовательностей дискретных токенов. Такая формулировка позволяет гибко обучаться мультимодальным задачам, особенно на основе крупномасштабных видеоданных. Благодаря включению моделирования мира в процессе пост-обучения, UniVLA захватывает причинно-следственные динамики из видео, что способствует эффективному переносу на обучение стратегий для последующих задач — особенно для задач с длительным горизонтом. Наш подход устанавливает новые рекорды на нескольких широко используемых симуляционных тестах, включая CALVIN, LIBERO и Simplenv-Bridge, значительно превосходя предыдущие методы. Например, UniVLA достигает средней успешности 95,5% на тесте LIBERO, превосходя показатель pi0-FAST в 85,5%. Мы также демонстрируем её широкую применимость в реальных задачах манипуляции с использованием ALOHA и автономного вождения.
English
Vision-language-action models (VLAs) have garnered significant attention for their potential in advancing robotic manipulation. However, previous approaches predominantly rely on the general comprehension capabilities of vision-language models (VLMs) to generate action signals, often overlooking the rich temporal and causal structure embedded in visual observations. In this paper, we present UniVLA, a unified and native multimodal VLA model that autoregressively models vision, language, and action signals as discrete token sequences. This formulation enables flexible multimodal tasks learning, particularly from large-scale video data. By incorporating world modeling during post-training, UniVLA captures causal dynamics from videos, facilitating effective transfer to downstream policy learning--especially for long-horizon tasks. Our approach sets new state-of-the-art results across several widely used simulation benchmarks, including CALVIN, LIBERO, and Simplenv-Bridge, significantly surpassing previous methods. For example, UniVLA achieves 95.5% average success rate on LIBERO benchmark, surpassing pi0-FAST's 85.5%. We further demonstrate its broad applicability on real-world ALOHA manipulation and autonomous driving.
PDF201June 25, 2025