TBD-VLA: Temporeel Blokdiffusie Visie-Taal-Actie Model

Samenvatting

Discrete Visie-Taal-Actie (VLA) modellen formuleren actiegeneratie doorgaans als een volgend-token voorspelling over gediscretiseerde actieruimtes, waarbij elk token autoregressief wordt geconditioneerd op voorgaande context. Hoewel effectief, brengt dit paradigma een hoge inferentielatentie met zich mee en wordt de inherente temporele structuur van actietrajecten grotendeels genegeerd. Recente inspanningen introduceren parallelle decodering om de efficiëntie te verbeteren, wat snellere inferentie mogelijk maakt, maar zonder expliciete mechanismen voor het modelleren van tokenafhankelijkheden. Wij introduceren TBD-VLA, een op discrete tokens gebaseerd VLA-raamwerk dat blokdiffusie incorporeert om temporele actiegeneratie mogelijk te maken. We verdelen actiesequenties in temporele blokken en passen binnen elk blok gemaskeerde discrete diffusie toe, terwijl autoregressieve generatie over blokken heen behouden blijft. Dit ontwerp verenigt temporele autoregressie en parallelle actiedecodering, wat zowel sterke temporele coherentie als verbeterde inferentiesnelheid oplevert. Daarnaast maakt de expliciete temporele modellering asynchrone uitvoering van actiechunks (bijv. Real-Time Chunking) mogelijk via temporele inpainting. TBD-VLA presteert aanzienlijk beter dan eerdere VLA-benaderingen in zowel simulatie- als echte manipulatie taken, en biedt een schaalbaar pad naar snelle, temporeel bewuste, discrete VLA-modellen. Projectwebpagina: https://tbd-vla.github.io/

English

Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction over discretized action spaces, conditioning each token autoregressively on prior context. While effective, this paradigm incurs high inference latency and largely ignores the temporal structure inherent in action trajectories. Recent efforts introduce parallel decoding to improve efficiency, enabling faster inference, but lack explicit mechanisms for modeling token dependencies. We introduce TBD-VLA, a discrete token-based VLA framework that incorporates block diffusion to enable temporal action generation. We partition action sequences into temporal blocks and perform masked discrete diffusion within each block, while maintaining autoregressive generation across blocks. This design unifies temporal autoregression and parallel action decoding, achieving both strong temporal coherence and improved inference speed. In addition, the explicit temporal modeling enables asynchronous execution of action chunks (e.g., Real-Time Chunking) via temporal in-painting. TBD-VLA significantly outperforms prior VLA approaches in both simulation and real-world manipulation tasks, offering a scalable path toward fast, temporally aware, discrete VLA models. Project webpage: https://tbd-vla.github.io/