Fast-dDrive: VLM de Difusión por Bloques Eficiente para Conducción Autónoma

Resumen

La conducción autónoma de extremo a extremo mediante modelos de Visión-Lenguaje-Acción (VLA) exige un delicado equilibrio entre la planificación de trayectorias de alta fidelidad y una inferencia eficiente. Los paradigmas existentes normalmente presentan deficiencias: los VLA autorregresivos (AR) están limitados por el ancho de banda de memoria en hardware periférico y son propensos a la deriva por sesgo de exposición, mientras que los modelos de difusión de secuencia completa impiden la reutilización de la caché KV y sufren de "fugas lógicas" que violan la causalidad fundamental de percibir y luego planificar. Presentamos Fast-dDrive, un VLA de difusión por bloques que realiza un refinamiento bidireccional dentro de unidades semánticas, al tiempo que impone un estricto orden causal entre ellas. Aprovechando la observación de que los VLA de conducción a menudo generan salidas estructuradas similares a JSON, Fast-dDrive congela los tokens estructurales en un andamio de secciones y emplea una receta de entrenamiento consciente de las secciones que prioriza la planificación crítica para la seguridad. Además, introducimos el Decodificación Especulativa con Andamio para lograr una calidad equivalente a la de los modelos AR con un rendimiento significativamente mayor. Finalmente, proponemos un esquema de escalado en tiempo de prueba de baja sobrecarga: al bifurcar N trayectorias estocásticas a partir de una única caché KV de prefijo compartido y promediarlas, suprimimos eficazmente la varianza de predicción a un costo computacional fraccionario. Los resultados empíricos demuestran que Fast-dDrive redefine la frontera velocidad-precisión para los agentes de conducción. En el conjunto de prueba WOD-E2E, Fast-dDrive alcanza ADE@3s y ADE@5s de última generación, junto con el RFS más alto entre los VLA basados en difusión; en nuScenes, reduce el error L2 promedio a 0.32 m (una mejora del 22%). Al integrarse con SGLang, nuestro marco proporciona una aceleración de rendimiento de 12 veces en comparación con la línea base AR, reduciendo la brecha entre los VLA de alta capacidad y las demandas de eficiencia del despliegue en tiempo real en vehículos.

English

End-to-end autonomous driving via Vision-Language-Action (VLA) models demands a precarious balance between high-fidelity trajectory planning and efficient inference. Existing paradigms typically fall short: autoregressive (AR) VLAs are memory-bandwidth-bound on edge hardware and prone to exposure-bias drift, while full-sequence diffusion models preclude KV-cache reuse and suffer from "logical leakage" that violates the fundamental perceive-then-plan causality. We present Fast-dDrive, a block-diffusion VLA that performs bidirectional refinement within semantic units while enforcing strict causal ordering across them. Leveraging the observation that driving VLAs often emit structured JSON-like outputs, Fast-dDrive freezes structural tokens into a section scaffold and employs a section-aware training recipe that prioritizes safety-critical planning. We further introduce Scaffold Speculative Decoding to achieve AR-equivalent quality at significantly higher throughput. Finally, we propose a low-overhead test-time scaling scheme: by forking N stochastic trajectory rollouts from a single shared-prefix KV cache and averaging them, we effectively suppress prediction variance at a fractional computational cost. Empirical results demonstrate that Fast-dDrive redefines the speed-accuracy frontier for driving agents. On the WOD-E2E test set, Fast-dDrive achieves SOTA ADE@3s and ADE@5s, alongside the highest RFS among diffusion-based VLAs; on nuScenes, it reduces average L2 error to 0.32m (a 22% improvement). When integrated with SGLang, our framework delivers 12times throughput speedup over the AR baseline, narrowing the gap between high-capacity VLAs and the efficiency demands of real-time on-vehicle deployment.