TBD-VLA: Modelo de Difusão por Blocos Temporais Visão-Linguagem-Ação

Resumo

Modelos discretos de Visão-Linguagem-Ação (VLA) tipicamente formulam a geração de ações como predição do próximo token sobre espaços de ação discretizados, condicionando cada token autoregressivamente ao contexto anterior. Embora eficaz, este paradigma incorre em alta latência de inferência e ignora amplamente a estrutura temporal inerente às trajetórias de ação. Esforços recentes introduzem decodificação paralela para melhorar a eficiência, permitindo inferência mais rápida, mas carecem de mecanismos explícitos para modelar dependências entre tokens. Apresentamos TBD-VLA, uma estrutura VLA baseada em tokens discretos que incorpora difusão por blocos para permitir geração temporal de ações. Particionamos sequências de ação em blocos temporais e realizamos difusão discreta mascarada dentro de cada bloco, mantendo geração autoregressiva entre blocos. Esse design unifica autoregressão temporal e decodificação paralela de ações, alcançando tanto forte coerência temporal quanto velocidade de inferência aprimorada. Além disso, a modelagem temporal explícita permite a execução assíncrona de blocos de ação (ex.: Real-Time Chunking) via preenchimento temporal (temporal in-painting). TBD-VLA supera significativamente abordagens VLA anteriores tanto em simulação quanto em tarefas de manipulação no mundo real, oferecendo um caminho escalável para modelos VLA discretos, rápidos e temporalmente conscientes. Página do projeto: https://tbd-vla.github.io/

English

Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction over discretized action spaces, conditioning each token autoregressively on prior context. While effective, this paradigm incurs high inference latency and largely ignores the temporal structure inherent in action trajectories. Recent efforts introduce parallel decoding to improve efficiency, enabling faster inference, but lack explicit mechanisms for modeling token dependencies. We introduce TBD-VLA, a discrete token-based VLA framework that incorporates block diffusion to enable temporal action generation. We partition action sequences into temporal blocks and perform masked discrete diffusion within each block, while maintaining autoregressive generation across blocks. This design unifies temporal autoregression and parallel action decoding, achieving both strong temporal coherence and improved inference speed. In addition, the explicit temporal modeling enables asynchronous execution of action chunks (e.g., Real-Time Chunking) via temporal in-painting. TBD-VLA significantly outperforms prior VLA approaches in both simulation and real-world manipulation tasks, offering a scalable path toward fast, temporally aware, discrete VLA models. Project webpage: https://tbd-vla.github.io/