통합 확산 VLA: 결합 이산 디노이징 확산 과정을 통한 비전-언어-행동 모델
Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
November 3, 2025
저자: Jiayi Chen, Wenxuan Song, Pengxiang Ding, Ziyang Zhou, Han Zhao, Feilong Tang, Donglin Wang, Haoang Li
cs.AI
초록
비전-언어-행동(VLA) 모델은 자연어 명령과 시각적 관찰을 이해하고 구현 에이전트로서 해당 행동을 실행하는 것을 목표로 합니다. 최근 연구에서는 미래 이미지를 이해-행동 루프에 통합하여 텍스트와 이미지를 읽고 미래 이미지와 행동을 생성하는 통합 VLA를 개발하고 있습니다. 그러나 이러한 모델들은 모달리티 통합을 위해 외부 전문가에 의존하거나 이미지 생성과 행동 예측을 별개의 과정으로 취급하여 이러한 작업들 간의 직접적인 시너지 효과를 제한하고 있습니다. 우리의 핵심 철학은 반복적 정제를 통해 행동이 초기화부터 진화하도록 하면서 지속적이고 충분한 시각적 지도를 통해 생성과 행동을 공동으로 최적화하는 동기화된 디노이징 프로세스입니다. 우리는 이 철학을 제안된 통합 디퓨전 VLA와 결합 이산 디노이징 디퓨전 프로세스(JD3P)에 구현했습니다. JD3P는 여러 모달리티를 단일 디노이징 궤적에 통합하여 이해, 생성, 행동이 본질적으로 시너지를 낼 수 있도록 하는 핵심 메커니즘입니다. 우리의 모델과 이론은 모든 모달리티의 통합 토큰화 공간과 하이브리드 어텐션 메커니즘에 기반을 둡니다. 우리는 더 나아가 성능과 효율성을 최적화하는 2단계 학습 파이프라인과 여러 추론 기법을 제안합니다. 우리의 접근 방식은 CALVIN, LIBERO, SimplerEnv 벤치마크에서 최첨단 성능을 달성하며 자기회귀 방법보다 4배 빠른 추론 속도를 보여주며, 심층 분석과 실제 평가를 통해 그 효과성을 입증합니다. 프로젝트 페이지는 https://irpn-eai.github.io/UD-VLA.github.io/에서 확인할 수 있습니다.
English
Vision-language-action (VLA) models aim to understand natural language
instructions and visual observations and to execute corresponding actions as an
embodied agent. Recent work integrates future images into the
understanding-acting loop, yielding unified VLAs that jointly understand,
generate, and act -- reading text and images and producing future images and
actions. However, these models either rely on external experts for modality
unification or treat image generation and action prediction as separate
processes, limiting the benefits of direct synergy between these tasks. Our
core philosophy is to optimize generation and action jointly through a
synchronous denoising process, where the iterative refinement enables actions
to evolve from initialization, under constant and sufficient visual guidance.
We ground this philosophy in our proposed Unified Diffusion VLA and Joint
Discrete Denoising Diffusion Process (JD3P), which is a joint diffusion process
that integrates multiple modalities into a single denoising trajectory to serve
as the key mechanism enabling understanding, generation, and acting to be
intrinsically synergistic. Our model and theory are built on a unified
tokenized space of all modalities and a hybrid attention mechanism. We further
propose a two-stage training pipeline and several inference-time techniques
that optimize performance and efficiency. Our approach achieves
state-of-the-art performance on benchmarks such as CALVIN, LIBERO, and
SimplerEnv with 4times faster inference than autoregressive methods, and we
demonstrate its effectiveness through in-depth analysis and real-world
evaluations. Our project page is available at
https://irpn-eai.github.io/UD-VLA.github.io/.