Fast-dDrive: Эффективная блочно-диффузионная VLM для автономного вождения

Аннотация

Сквозное автономное вождение с использованием моделей Vision-Language-Action (VLA) требует хрупкого баланса между высокоточным планированием траектории и эффективным выводом. Существующие парадигмы, как правило, не соответствуют требованиям: авторегрессионные (AR) VLA ограничены пропускной способностью памяти на граничных устройствах и подвержены дрейфу смещения экспозиции, в то время как диффузионные модели полных последовательностей исключают повторное использование KV-кэша и страдают от «логической утечки», нарушающей фундаментальную причинно-следственную связь «восприятие-затем-планирование». Мы представляем Fast-dDrive, блочно-диффузионную VLA, которая выполняет двунаправленное уточнение внутри семантических единиц, обеспечивая при этом строгую причинно-следственную упорядоченность между ними. Используя наблюдение, что VLA для вождения часто генерируют структурированные выходные данные в JSON-подобном формате, Fast-dDrive фиксирует структурные токены в каркасе разделов и применяет рецепт обучения с учетом разделов, который отдает приоритет критически важному для безопасности планированию. Кроме того, мы вводим Scaffold Speculative Decoding для достижения качества, эквивалентного AR, при значительно более высокой пропускной способности. Наконец, мы предлагаем схему масштабирования во время тестирования с низкими накладными расходами: путем разветвления N стохастических развертываний траектории из одного общего KV-кэша с общим префиксом и их усреднения мы эффективно подавляем дисперсию прогнозов при незначительных вычислительных затратах. Эмпирические результаты демонстрируют, что Fast-dDrive переопределяет границу скорости и точности для агентов вождения. На тестовом наборе WOD-E2E Fast-dDrive достигает SOTA ADE@3s и ADE@5s, а также самого высокого RFS среди диффузионных VLA; на nuScenes он снижает среднюю ошибку L2 до 0,32 м (улучшение на 22%). При интеграции с SGLang наша платформа обеспечивает 12-кратное ускорение пропускной способности по сравнению с AR-базовым уровнем, сокращая разрыв между высокоемкими VLA и требованиями к эффективности развертывания в реальном времени на транспортных средствах.

English

End-to-end autonomous driving via Vision-Language-Action (VLA) models demands a precarious balance between high-fidelity trajectory planning and efficient inference. Existing paradigms typically fall short: autoregressive (AR) VLAs are memory-bandwidth-bound on edge hardware and prone to exposure-bias drift, while full-sequence diffusion models preclude KV-cache reuse and suffer from "logical leakage" that violates the fundamental perceive-then-plan causality. We present Fast-dDrive, a block-diffusion VLA that performs bidirectional refinement within semantic units while enforcing strict causal ordering across them. Leveraging the observation that driving VLAs often emit structured JSON-like outputs, Fast-dDrive freezes structural tokens into a section scaffold and employs a section-aware training recipe that prioritizes safety-critical planning. We further introduce Scaffold Speculative Decoding to achieve AR-equivalent quality at significantly higher throughput. Finally, we propose a low-overhead test-time scaling scheme: by forking N stochastic trajectory rollouts from a single shared-prefix KV cache and averaging them, we effectively suppress prediction variance at a fractional computational cost. Empirical results demonstrate that Fast-dDrive redefines the speed-accuracy frontier for driving agents. On the WOD-E2E test set, Fast-dDrive achieves SOTA ADE@3s and ADE@5s, alongside the highest RFS among diffusion-based VLAs; on nuScenes, it reduces average L2 error to 0.32m (a 22% improvement). When integrated with SGLang, our framework delivers 12times throughput speedup over the AR baseline, narrowing the gap between high-capacity VLAs and the efficiency demands of real-time on-vehicle deployment.