Fast-dDrive: Effizientes Block-Diffusion-VLM für autonomes Fahren

Zusammenfassung

End-to-End-Autonomes Fahren mittels Vision-Language-Action (VLA)-Modellen erfordert eine prekäre Balance zwischen hochgenauer Trajektorienplanung und effizienter Inferenz. Bestehende Paradigmen sind meist unzureichend: Autoregressive (AR) VLAs sind auf Edge-Hardware durch die Speicherbandbreite begrenzt und neigen zu Expositions-Bias-Drift, während Full-Sequence-Diffusionsmodelle keine KV-Cache-Wiederverwendung zulassen und unter „logischem Leck" leiden, das die fundamentale Kausalität von Wahrnehmung und Planung verletzt. Wir präsentieren Fast-dDrive, ein Block-Diffusion-VLA, das bidirektionale Verfeinerung innerhalb semantischer Einheiten durchführt und gleichzeitig eine strenge kausale Ordnung zwischen ihnen erzwingt. Basierend auf der Beobachtung, dass Fahr-VLAs häufig strukturierte JSON-ähnliche Ausgaben erzeugen, friert Fast-dDrive strukturelle Token in ein Abschnittsgerüst (Section Scaffold) ein und verwendet ein abschnittsbewusstes Trainingsrezept, das sicherheitskritische Planung priorisiert. Wir führen ferner Scaffold Speculative Decoding ein, um AR-äquivalente Qualität bei deutlich höherem Durchsatz zu erreichen. Schließlich schlagen wir ein Schema mit geringem Overhead zur Testzeit-Skalierung vor: Durch die Verzweigung (Forking) von N stochastischen Trajektorien-Rollouts aus einem einzigen Shared-Prefix-KV-Cache und deren Mittelung unterdrücken wir effektiv die Vorhersagevarianz zu einem Bruchteil der Rechenkosten. Empirische Ergebnisse zeigen, dass Fast-dDrive die Geschwindigkeits-Genauigkeits-Grenze für Fahragenten neu definiert. Auf dem WOD-E2E-Testset erzielt Fast-dDrive SOTA ADE@3s und ADE@5s sowie den höchsten RFS unter diffusionsbasierten VLAs; auf nuScenes reduziert es den durchschnittlichen L2-Fehler auf 0,32 m (eine Verbesserung um 22%). Bei Integration mit SGLang erzielt unser Framework eine 12-fache Durchsatzsteigerung gegenüber der AR-Baseline und verringert damit die Kluft zwischen hochkapazitiven VLAs und den Effizienzanforderungen des Echtzeit-Einsatzes in Fahrzeugen.

English

End-to-end autonomous driving via Vision-Language-Action (VLA) models demands a precarious balance between high-fidelity trajectory planning and efficient inference. Existing paradigms typically fall short: autoregressive (AR) VLAs are memory-bandwidth-bound on edge hardware and prone to exposure-bias drift, while full-sequence diffusion models preclude KV-cache reuse and suffer from "logical leakage" that violates the fundamental perceive-then-plan causality. We present Fast-dDrive, a block-diffusion VLA that performs bidirectional refinement within semantic units while enforcing strict causal ordering across them. Leveraging the observation that driving VLAs often emit structured JSON-like outputs, Fast-dDrive freezes structural tokens into a section scaffold and employs a section-aware training recipe that prioritizes safety-critical planning. We further introduce Scaffold Speculative Decoding to achieve AR-equivalent quality at significantly higher throughput. Finally, we propose a low-overhead test-time scaling scheme: by forking N stochastic trajectory rollouts from a single shared-prefix KV cache and averaging them, we effectively suppress prediction variance at a fractional computational cost. Empirical results demonstrate that Fast-dDrive redefines the speed-accuracy frontier for driving agents. On the WOD-E2E test set, Fast-dDrive achieves SOTA ADE@3s and ADE@5s, alongside the highest RFS among diffusion-based VLAs; on nuScenes, it reduces average L2 error to 0.32m (a 22% improvement). When integrated with SGLang, our framework delivers 12times throughput speedup over the AR baseline, narrowing the gap between high-capacity VLAs and the efficiency demands of real-time on-vehicle deployment.