Fast-dDrive : VLM à bloc-diffusion efficace pour la conduite autonome

Résumé

La conduite autonome de bout en bout via des modèles Vision-Langage-Action (VLA) exige un équilibre précaire entre une planification de trajectoire à haute fidélité et une inférence efficace. Les paradigmes existants sont généralement insuffisants : les VLA autorégressifs (AR) sont limités par la bande passante mémoire sur les matériels embarqués et sujets à la dérive de biais d'exposition, tandis que les modèles de diffusion sur séquence complète empêchent la réutilisation du cache KV et souffrent d'une « fuite logique » qui viole la causalité fondamentale percevoir-puis-planifier. Nous présentons Fast-dDrive, un VLA à diffusion par blocs qui effectue un affinement bidirectionnel au sein des unités sémantiques tout en imposant un ordonnancement causal strict entre elles. Tirant parti de l'observation que les VLA de conduite produisent souvent des sorties structurées de type JSON, Fast-dDrive gèle les tokens structuraux dans un échafaudage de sections et utilise une recette d'entraînement consciente des sections qui priorise la planification critique pour la sécurité. Nous introduisons en outre le Décodage Spéculatif par Échafaudage pour atteindre une qualité équivalente à l'AR avec un débit nettement plus élevé. Enfin, nous proposons un schéma de passage à l'échelle en inférence à faible surcoût : en dérivant N déploiements de trajectoires stochastiques à partir d'un cache KV à préfixe partagé unique et en les moyennant, nous supprimons efficacement la variance de prédiction à un coût de calcul fractionnaire. Les résultats empiriques démontrent que Fast-dDrive redéfinit la frontière vitesse-précision pour les agents de conduite. Sur l'ensemble de test WOD-E2E, Fast-dDrive atteint des ADE@3s et ADE@5s de pointe, ainsi que le RFS le plus élevé parmi les VLA basés sur la diffusion ; sur nuScenes, il réduit l'erreur L2 moyenne à 0,32 m (une amélioration de 22 %). Intégré à SGLang, notre cadre offre une accélération du débit de 12 fois par rapport à la référence AR, réduisant l'écart entre les VLA de grande capacité et les exigences d'efficacité du déploiement temps réel embarqué.

English

End-to-end autonomous driving via Vision-Language-Action (VLA) models demands a precarious balance between high-fidelity trajectory planning and efficient inference. Existing paradigms typically fall short: autoregressive (AR) VLAs are memory-bandwidth-bound on edge hardware and prone to exposure-bias drift, while full-sequence diffusion models preclude KV-cache reuse and suffer from "logical leakage" that violates the fundamental perceive-then-plan causality. We present Fast-dDrive, a block-diffusion VLA that performs bidirectional refinement within semantic units while enforcing strict causal ordering across them. Leveraging the observation that driving VLAs often emit structured JSON-like outputs, Fast-dDrive freezes structural tokens into a section scaffold and employs a section-aware training recipe that prioritizes safety-critical planning. We further introduce Scaffold Speculative Decoding to achieve AR-equivalent quality at significantly higher throughput. Finally, we propose a low-overhead test-time scaling scheme: by forking N stochastic trajectory rollouts from a single shared-prefix KV cache and averaging them, we effectively suppress prediction variance at a fractional computational cost. Empirical results demonstrate that Fast-dDrive redefines the speed-accuracy frontier for driving agents. On the WOD-E2E test set, Fast-dDrive achieves SOTA ADE@3s and ADE@5s, alongside the highest RFS among diffusion-based VLAs; on nuScenes, it reduces average L2 error to 0.32m (a 22% improvement). When integrated with SGLang, our framework delivers 12times throughput speedup over the AR baseline, narrowing the gap between high-capacity VLAs and the efficiency demands of real-time on-vehicle deployment.