TBD-VLA: Temporales Block-Diffusions-Vision-Language-Action-Modell

Zusammenfassung

Diskrete Vision-Language-Action (VLA)-Modelle formulieren die Aktionserzeugung typischerweise als Next-Token-Vorhersage über diskretisierte Aktionsräume, wobei jedes Token autoregressiv auf den vorherigen Kontext konditioniert wird. Obwohl dieser Ansatz effektiv ist, verursacht er eine hohe Inferenzlatenz und vernachlässigt weitgehend die zeitliche Struktur, die Aktionsverläufen innewohnt. Neuere Arbeiten führen paralleles Decodieren ein, um die Effizienz zu steigern und schnellere Inferenz zu ermöglichen, jedoch fehlen explizite Mechanismen zur Modellierung von Token-Abhängigkeiten. Wir stellen TBD-VLA vor, ein diskretes tokenbasiertes VLA-Framework, das Block-Diffusion zur zeitlichen Aktionserzeugung integriert. Wir unterteilen Aktionssequenzen in zeitliche Blöcke und führen innerhalb jedes Blocks eine maskierte diskrete Diffusion durch, während die autoregressive Erzeugung über die Blöcke hinweg beibehalten wird. Dieses Design vereint zeitliche Autoregression und paralleles Aktionsdecodieren und erreicht sowohl starke zeitliche Kohärenz als auch verbesserte Inferenzgeschwindigkeit. Darüber hinaus ermöglicht die explizite zeitliche Modellierung die asynchrone Ausführung von Aktionsblöcken (z. B. Echtzeit-Chunking) durch zeitliches Inpainting. TBD-VLA übertrifft frühere VLA-Ansätze sowohl in Simulationen als auch in realen Manipulationsaufgaben deutlich und bietet einen skalierbaren Weg hin zu schnellen, zeitlich bewussten, diskreten VLA-Modellen. Projektwebseite: https://tbd-vla.github.io/

English

Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction over discretized action spaces, conditioning each token autoregressively on prior context. While effective, this paradigm incurs high inference latency and largely ignores the temporal structure inherent in action trajectories. Recent efforts introduce parallel decoding to improve efficiency, enabling faster inference, but lack explicit mechanisms for modeling token dependencies. We introduce TBD-VLA, a discrete token-based VLA framework that incorporates block diffusion to enable temporal action generation. We partition action sequences into temporal blocks and perform masked discrete diffusion within each block, while maintaining autoregressive generation across blocks. This design unifies temporal autoregression and parallel action decoding, achieving both strong temporal coherence and improved inference speed. In addition, the explicit temporal modeling enables asynchronous execution of action chunks (e.g., Real-Time Chunking) via temporal in-painting. TBD-VLA significantly outperforms prior VLA approaches in both simulation and real-world manipulation tasks, offering a scalable path toward fast, temporally aware, discrete VLA models. Project webpage: https://tbd-vla.github.io/