TBD-VLA: modelo de difusión de bloques temporales de visión, lenguaje y acción

Resumen

Los modelos discretos de Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) suelen formular la generación de acciones como una predicción del siguiente token sobre espacios de acción discretizados, condicionando cada token autorregresivamente al contexto previo. Si bien este enfoque es efectivo, conlleva una alta latencia de inferencia y en gran medida ignora la estructura temporal inherente a las trayectorias de acción. Esfuerzos recientes introducen la decodificación paralela para mejorar la eficiencia, permitiendo una inferencia más rápida, pero carecen de mecanismos explícitos para modelar las dependencias entre tokens. Presentamos TBD-VLA, un marco VLA basado en tokens discretos que incorpora difusión por bloques para habilitar la generación temporal de acciones. Dividimos las secuencias de acción en bloques temporales y aplicamos difusión discreta enmascarada dentro de cada bloque, manteniendo una generación autorregresiva entre bloques. Este diseño unifica la autorregresión temporal y la decodificación paralela de acciones, logrando tanto una fuerte coherencia temporal como una velocidad de inferencia mejorada. Además, el modelado temporal explícito permite la ejecución asíncrona de fragmentos de acción (por ejemplo, Real-Time Chunking) mediante in-painting temporal. TBD-VLA supera significativamente a los enfoques VLA anteriores tanto en simulaciones como en tareas de manipulación en el mundo real, ofreciendo un camino escalable hacia modelos VLA discretos, rápidos y conscientes de la temporalidad. Página web del proyecto: https://tbd-vla.github.io/

English

Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction over discretized action spaces, conditioning each token autoregressively on prior context. While effective, this paradigm incurs high inference latency and largely ignores the temporal structure inherent in action trajectories. Recent efforts introduce parallel decoding to improve efficiency, enabling faster inference, but lack explicit mechanisms for modeling token dependencies. We introduce TBD-VLA, a discrete token-based VLA framework that incorporates block diffusion to enable temporal action generation. We partition action sequences into temporal blocks and perform masked discrete diffusion within each block, while maintaining autoregressive generation across blocks. This design unifies temporal autoregression and parallel action decoding, achieving both strong temporal coherence and improved inference speed. In addition, the explicit temporal modeling enables asynchronous execution of action chunks (e.g., Real-Time Chunking) via temporal in-painting. TBD-VLA significantly outperforms prior VLA approaches in both simulation and real-world manipulation tasks, offering a scalable path toward fast, temporally aware, discrete VLA models. Project webpage: https://tbd-vla.github.io/