ChatPaper.aiChatPaper

TBD-VLA: 시간 블록 확산 시각-언어-행동 모델

TBD-VLA: Temporal Block Diffusion Vision Language Action Model

June 5, 2026
저자: Sung-Wook Lee, Xuhui Kang, Yen-Ling Kuo
cs.AI

초록

이산적인 시각-언어-행동(VLA) 모델은 일반적으로 이산화된 행동 공간에서 다음 토큰 예측을 통해 행동 생성을 공식화하며, 각 토큰을 이전 맥락에 자기회귀적으로 조건화한다. 효과적이긴 하지만, 이 패러다임은 높은 추론 지연 시간을 초래하고 행동 궤적에 내재된 시간적 구조를 대부분 무시한다. 최근 병렬 디코딩을 도입하여 효율성을 개선하고 더 빠른 추론을 가능하게 하는 연구들이 있지만, 토큰 의존성을 명시적으로 모델링하는 메커니즘이 부족하다. 본 연구에서는 블록 확산을 통합하여 시간적 행동 생성을 가능하게 하는 이산적 토큰 기반 VLA 프레임워크인 TBD-VLA를 제안한다. 행동 시퀀스를 시간적 블록으로 분할하고 각 블록 내에서 마스킹된 이산 확산을 수행하면서, 블록 간에는 자기회귀 생성을 유지한다. 이 설계는 시간적 자기회귀와 병렬 행동 디코딩을 통합하여 강력한 시간적 일관성과 향상된 추론 속도를 모두 달성한다. 또한, 명시적인 시간적 모델링은 시간적 인페인팅을 통해 행동 청크(예: 실시간 청킹)의 비동기적 실행을 가능하게 한다. TBD-VLA는 시뮬레이션 및 실제 로봇 조작 작업 모두에서 기존 VLA 접근법을 크게 능가하며, 빠르고 시간 인식적인 이산 VLA 모델을 위한 확장 가능한 경로를 제공한다. 프로젝트 웹페이지: https://tbd-vla.github.io/
English
Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction over discretized action spaces, conditioning each token autoregressively on prior context. While effective, this paradigm incurs high inference latency and largely ignores the temporal structure inherent in action trajectories. Recent efforts introduce parallel decoding to improve efficiency, enabling faster inference, but lack explicit mechanisms for modeling token dependencies. We introduce TBD-VLA, a discrete token-based VLA framework that incorporates block diffusion to enable temporal action generation. We partition action sequences into temporal blocks and perform masked discrete diffusion within each block, while maintaining autoregressive generation across blocks. This design unifies temporal autoregression and parallel action decoding, achieving both strong temporal coherence and improved inference speed. In addition, the explicit temporal modeling enables asynchronous execution of action chunks (e.g., Real-Time Chunking) via temporal in-painting. TBD-VLA significantly outperforms prior VLA approaches in both simulation and real-world manipulation tasks, offering a scalable path toward fast, temporally aware, discrete VLA models. Project webpage: https://tbd-vla.github.io/