Diffusione Discreta per Modelli Visione-Linguaggio-Azione Riflessivi nella Guida Autonoma
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving
September 24, 2025
Autori: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang
cs.AI
Abstract
Le soluzioni End-to-End (E2E) sono emerse come approccio predominante per i sistemi di guida autonoma, con i modelli Vision-Language-Action (VLA) che rappresentano un nuovo paradigma che sfrutta la conoscenza multimodale pre-addestrata dei modelli Vision-Language (VLM) per interpretare e interagire con ambienti reali complessi. Tuttavia, questi metodi rimangono limitati dalle restrizioni dell'apprendimento per imitazione, che fatica a codificare intrinsecamente le regole fisiche durante l'addestramento. Gli approcci esistenti spesso si basano su complesse rifiniture basate su regole, impiegano l'apprendimento per rinforzo che rimane largamente confinato alla simulazione, o utilizzano una guida basata su diffusione che richiede calcoli di gradiente computazionalmente costosi. Per affrontare queste sfide, introduciamo ReflectDrive, un nuovo framework basato sull'apprendimento che integra un meccanismo di riflessione per la generazione sicura di traiettorie tramite diffusione discreta. Inizialmente discretizziamo lo spazio di guida bidimensionale per costruire un codebook di azioni, consentendo l'uso di modelli di linguaggio a diffusione pre-addestrati per compiti di pianificazione attraverso il fine-tuning. Al centro del nostro approccio c'è un meccanismo di riflessione consapevole della sicurezza che esegue un'autocorrezione iterativa senza calcolo del gradiente. Il nostro metodo inizia con la generazione di traiettorie condizionate da un obiettivo per modellare comportamenti di guida multimodali. Su questa base, applichiamo metodi di ricerca locale per identificare token non sicuri e determinare soluzioni fattibili, che fungono poi da ancore sicure per una rigenerazione basata sull'inpainting. Valutato sul benchmark NAVSIM, ReflectDrive dimostra significativi vantaggi nella generazione di traiettorie critiche per la sicurezza, offrendo una soluzione scalabile e affidabile per i sistemi di guida autonoma.
English
End-to-End (E2E) solutions have emerged as a mainstream approach for
autonomous driving systems, with Vision-Language-Action (VLA) models
representing a new paradigm that leverages pre-trained multimodal knowledge
from Vision-Language Models (VLMs) to interpret and interact with complex
real-world environments. However, these methods remain constrained by the
limitations of imitation learning, which struggles to inherently encode
physical rules during training. Existing approaches often rely on complex
rule-based post-refinement, employ reinforcement learning that remains largely
limited to simulation, or utilize diffusion guidance that requires
computationally expensive gradient calculations. To address these challenges,
we introduce ReflectDrive, a novel learning-based framework that integrates a
reflection mechanism for safe trajectory generation via discrete diffusion. We
first discretize the two-dimensional driving space to construct an action
codebook, enabling the use of pre-trained Diffusion Language Models for
planning tasks through fine-tuning. Central to our approach is a safety-aware
reflection mechanism that performs iterative self-correction without gradient
computation. Our method begins with goal-conditioned trajectory generation to
model multi-modal driving behaviors. Based on this, we apply local search
methods to identify unsafe tokens and determine feasible solutions, which then
serve as safe anchors for inpainting-based regeneration. Evaluated on the
NAVSIM benchmark, ReflectDrive demonstrates significant advantages in
safety-critical trajectory generation, offering a scalable and reliable
solution for autonomous driving systems.