TBD-VLA: Временная блочная диффузионная модель видения-языка-действия

Аннотация

Дискретные модели «зрение-язык-действие» (VLA) обычно формулируют генерацию действий как предсказание следующего токена в дискретизированных пространствах действий, обусловливая каждый токен авторегрессивно на основе предыдущего контекста. Будучи эффективной, эта парадигма приводит к высокой задержке вывода и в значительной степени игнорирует временную структуру, присущую траекториям действий. Недавние попытки вводят параллельное декодирование для повышения эффективности, обеспечивая более быстрый вывод, но не имеют явных механизмов для моделирования зависимостей токенов. Мы представляем TBD-VLA — фреймворк VLA на основе дискретных токенов, который включает блочную диффузию для обеспечения генерации временных действий. Мы разбиваем последовательности действий на временные блоки и выполняем маскированную дискретную диффузию в каждом блоке, сохраняя при этом авторегрессивную генерацию между блоками. Этот дизайн объединяет временную авторегрессию и параллельное декодирование действий, достигая как сильной временной согласованности, так и повышенной скорости вывода. Кроме того, явное временное моделирование позволяет асинхронно выполнять фрагменты действий (например, Real-Time Chunking) с помощью временного инпейнтинга. TBD-VLA значительно превосходит предыдущие подходы VLA как в симуляции, так и в реальных задачах манипуляции, предлагая масштабируемый путь к быстрым, темпорально осведомленным дискретным моделям VLA. Веб-страница проекта: https://tbd-vla.github.io/

English

Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction over discretized action spaces, conditioning each token autoregressively on prior context. While effective, this paradigm incurs high inference latency and largely ignores the temporal structure inherent in action trajectories. Recent efforts introduce parallel decoding to improve efficiency, enabling faster inference, but lack explicit mechanisms for modeling token dependencies. We introduce TBD-VLA, a discrete token-based VLA framework that incorporates block diffusion to enable temporal action generation. We partition action sequences into temporal blocks and perform masked discrete diffusion within each block, while maintaining autoregressive generation across blocks. This design unifies temporal autoregression and parallel action decoding, achieving both strong temporal coherence and improved inference speed. In addition, the explicit temporal modeling enables asynchronous execution of action chunks (e.g., Real-Time Chunking) via temporal in-painting. TBD-VLA significantly outperforms prior VLA approaches in both simulation and real-world manipulation tasks, offering a scalable path toward fast, temporally aware, discrete VLA models. Project webpage: https://tbd-vla.github.io/