Fast-dDrive: Efficiënt blokdiffusie-VLM voor autonoom rijden

Samenvatting

End-to-end autonoom rijden via Visie-Taal-Actie (VLA)-modellen vereist een precair evenwicht tussen trajectplanning met hoge getrouwheid en efficiënte inferentie. Bestaande paradigma’s schieten doorgaans tekort: autoregressieve (AR) VLA’s zijn op edge-hardware geheugenbandbreedte-gelimiteerd en gevoelig voor exposure-bias drift, terwijl volledige-sequentie diffusiemodellen KV-cache-hergebruik belemmeren en lijden onder ‘logische lekkage’ die de fundamentele perceptie-dan-plan-causaliteit schendt. Wij presenteren Fast-dDrive, een blokdiffusie-VLA dat bidirectionele verfijning binnen semantische eenheden uitvoert, terwijl het strikte causale ordening tussen deze eenheden handhaaft. Gebruikmakend van de observatie dat rijdende VLA’s vaak gestructureerde JSON-achtige outputs genereren, bevriest Fast-dDrive structurele tokens in een sectie-steiger en past het een sectiebewuste trainingsmethode toe die prioriteit geeft aan veiligheidskritische planning. Verder introduceren wij Scaffold Speculatieve Decodering om AR-equivalente kwaliteit te bereiken met een significant hogere doorvoer. Tot slot stellen wij een schaalschema voor tijdens het testen met lage overhead: door N stochastische trajectrollouts te splitsen vanuit een enkele gedeelde prefix-KV-cache en deze te middelen, onderdrukken wij effectief de voorspellingsvariantie tegen een fractie van de rekenkosten. Empirische resultaten tonen aan dat Fast-dDrive de snelheid-nauwkeurigheidsgrens voor rijdende agenten herdefinieert. Op de WOD-E2E-testset behaalt Fast-dDrive state-of-the-art ADE@3s en ADE@5s, samen met de hoogste RFS onder diffusie-gebaseerde VLA’s; op nuScenes vermindert het de gemiddelde L2-fout tot 0,32 m (een verbetering van 22%). Bij integratie met SGLang levert ons raamwerk een 12-voudige doorvoersnelheidsversnelling op ten opzichte van de AR-baseline, waarmee de kloof tussen hoogcapaciteit VLA’s en de efficiëntie-eisen van realtime-invoering in voertuigen wordt verkleind.

English

End-to-end autonomous driving via Vision-Language-Action (VLA) models demands a precarious balance between high-fidelity trajectory planning and efficient inference. Existing paradigms typically fall short: autoregressive (AR) VLAs are memory-bandwidth-bound on edge hardware and prone to exposure-bias drift, while full-sequence diffusion models preclude KV-cache reuse and suffer from "logical leakage" that violates the fundamental perceive-then-plan causality. We present Fast-dDrive, a block-diffusion VLA that performs bidirectional refinement within semantic units while enforcing strict causal ordering across them. Leveraging the observation that driving VLAs often emit structured JSON-like outputs, Fast-dDrive freezes structural tokens into a section scaffold and employs a section-aware training recipe that prioritizes safety-critical planning. We further introduce Scaffold Speculative Decoding to achieve AR-equivalent quality at significantly higher throughput. Finally, we propose a low-overhead test-time scaling scheme: by forking N stochastic trajectory rollouts from a single shared-prefix KV cache and averaging them, we effectively suppress prediction variance at a fractional computational cost. Empirical results demonstrate that Fast-dDrive redefines the speed-accuracy frontier for driving agents. On the WOD-E2E test set, Fast-dDrive achieves SOTA ADE@3s and ADE@5s, alongside the highest RFS among diffusion-based VLAs; on nuScenes, it reduces average L2 error to 0.32m (a 22% improvement). When integrated with SGLang, our framework delivers 12times throughput speedup over the AR baseline, narrowing the gap between high-capacity VLAs and the efficiency demands of real-time on-vehicle deployment.