TBD-VLA : Modèle de diffusion par blocs temporels pour vision-langage-action

Résumé

Les modèles Vision-Langage-Action (VLA) discrets formulent généralement la génération d’actions comme une prédiction du prochain jeton sur des espaces d’actions discrétisés, chaque jeton étant conditionné de manière autorégressive sur le contexte antérieur. Bien qu’efficace, ce paradigme entraîne une latence d’inférence élevée et néglige largement la structure temporelle inhérente aux trajectoires d’actions. Des travaux récents introduisent le décodage parallèle pour améliorer l’efficacité, permettant une inférence plus rapide, mais ils manquent de mécanismes explicites pour modéliser les dépendances entre jetons. Nous présentons TBD-VLA, un cadre VLA à base de jetons discrets qui intègre la diffusion par blocs pour permettre une génération temporelle d’actions. Nous partitionnons les séquences d’actions en blocs temporels et appliquons une diffusion discrète masquée à l’intérieur de chaque bloc, tout en maintenant une génération autorégressive entre les blocs. Cette conception unifie l’autorégression temporelle et le décodage parallèle d’actions, obtenant à la fois une forte cohérence temporelle et une vitesse d’inférence améliorée. De plus, la modélisation temporelle explicite permet l’exécution asynchrone de blocs d’actions (par exemple, Real-Time Chunking) via un in-painting temporel. TBD-VLA surpasse significativement les approches VLA antérieures dans des tâches de manipulation en simulation et dans le monde réel, offrant une voie évolutive vers des modèles VLA discrets, rapides et temporellement conscients. Page web du projet : https://tbd-vla.github.io/

English

Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction over discretized action spaces, conditioning each token autoregressively on prior context. While effective, this paradigm incurs high inference latency and largely ignores the temporal structure inherent in action trajectories. Recent efforts introduce parallel decoding to improve efficiency, enabling faster inference, but lack explicit mechanisms for modeling token dependencies. We introduce TBD-VLA, a discrete token-based VLA framework that incorporates block diffusion to enable temporal action generation. We partition action sequences into temporal blocks and perform masked discrete diffusion within each block, while maintaining autoregressive generation across blocks. This design unifies temporal autoregression and parallel action decoding, achieving both strong temporal coherence and improved inference speed. In addition, the explicit temporal modeling enables asynchronous execution of action chunks (e.g., Real-Time Chunking) via temporal in-painting. TBD-VLA significantly outperforms prior VLA approaches in both simulation and real-world manipulation tasks, offering a scalable path toward fast, temporally aware, discrete VLA models. Project webpage: https://tbd-vla.github.io/