Fast-dDrive: VLM de Difusão em Blocos Eficiente para Condução Autônoma

Resumo

A direção autônoma de ponta a ponta por meio de modelos Visão-Linguagem-Ação (VLA) exige um equilíbrio delicado entre planejamento de trajetória de alta fidelidade e inferência eficiente. Os paradigmas existentes geralmente são insuficientes: VLAs autorregressivos (AR) são limitados pela largura de banda da memória em hardware de borda e propensos ao desvio de viés de exposição, enquanto modelos de difusão de sequência completa impedem a reutilização de cache KV e sofrem de "vazamento lógico" que viola a causalidade fundamental de perceber-depois-planejar. Apresentamos o Fast-dDrive, um VLA de difusão por blocos que realiza refinamento bidirecional dentro de unidades semânticas, ao mesmo tempo que impõe ordenação causal estrita entre elas. Aproveitando a observação de que VLAs de direção frequentemente emitem saídas estruturadas semelhantes a JSON, o Fast-dDrive congela tokens estruturais em um arcabouço de seção e emprega uma receita de treinamento ciente de seção que prioriza o planejamento crítico para segurança. Introduzimos ainda a Decodificação Especulativa com Arcabouço para alcançar qualidade equivalente a AR com vazão significativamente maior. Por fim, propomos um esquema de escalonamento em tempo de teste de baixo custo: ao bifurcar N trajetórias estocásticas a partir de um único cache KV de prefixo compartilhado e calculá-las em média, suprimimos efetivamente a variância de previsão a um custo computacional fracionário. Resultados empíricos demonstram que o Fast-dDrive redefine a fronteira velocidade-precisão para agentes de direção. No conjunto de teste WOD-E2E, o Fast-dDrive atinge ADE@3s e ADE@5s de estado da arte, juntamente com o maior RFS entre VLAs baseados em difusão; no nuScenes, reduz o erro L2 médio para 0,32m (uma melhoria de 22%). Quando integrado ao SGLang, nosso framework oferece aceleração de vazão de 12 vezes em relação à linha de base AR, reduzindo a lacuna entre VLAs de alta capacidade e as demandas de eficiência da implantação em tempo real em veículos.

English

End-to-end autonomous driving via Vision-Language-Action (VLA) models demands a precarious balance between high-fidelity trajectory planning and efficient inference. Existing paradigms typically fall short: autoregressive (AR) VLAs are memory-bandwidth-bound on edge hardware and prone to exposure-bias drift, while full-sequence diffusion models preclude KV-cache reuse and suffer from "logical leakage" that violates the fundamental perceive-then-plan causality. We present Fast-dDrive, a block-diffusion VLA that performs bidirectional refinement within semantic units while enforcing strict causal ordering across them. Leveraging the observation that driving VLAs often emit structured JSON-like outputs, Fast-dDrive freezes structural tokens into a section scaffold and employs a section-aware training recipe that prioritizes safety-critical planning. We further introduce Scaffold Speculative Decoding to achieve AR-equivalent quality at significantly higher throughput. Finally, we propose a low-overhead test-time scaling scheme: by forking N stochastic trajectory rollouts from a single shared-prefix KV cache and averaging them, we effectively suppress prediction variance at a fractional computational cost. Empirical results demonstrate that Fast-dDrive redefines the speed-accuracy frontier for driving agents. On the WOD-E2E test set, Fast-dDrive achieves SOTA ADE@3s and ADE@5s, alongside the highest RFS among diffusion-based VLAs; on nuScenes, it reduces average L2 error to 0.32m (a 22% improvement). When integrated with SGLang, our framework delivers 12times throughput speedup over the AR baseline, narrowing the gap between high-capacity VLAs and the efficiency demands of real-time on-vehicle deployment.