Discrete Diffusie voor Reflectieve Visie-Taal-Actie Modellen in Autonoom Rijden
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving
September 24, 2025
Auteurs: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang
cs.AI
Samenvatting
End-to-End (E2E) oplossingen zijn uitgegroeid tot een mainstream benadering voor autonome rijsystemen, waarbij Vision-Language-Action (VLA) modellen een nieuw paradigma vertegenwoordigen dat gebruikmaakt van vooraf getrainde multimodale kennis uit Vision-Language Models (VLMs) om complexe real-world omgevingen te interpreteren en ermee te interacteren. Deze methoden blijven echter beperkt door de tekortkomingen van imitatieleren, dat moeite heeft om fysieke regels inherent te coderen tijdens de training. Bestaande benaderingen vertrouwen vaak op complexe regelgebaseerde nabewerking, gebruiken reinforcement learning dat grotendeels beperkt blijft tot simulaties, of maken gebruik van diffusiebegeleiding die rekenintensieve gradientberekeningen vereist. Om deze uitdagingen aan te pakken, introduceren we ReflectDrive, een nieuw op leren gebaseerd framework dat een reflectiemechanisme integreert voor veilige trajectgeneratie via discrete diffusie. We discretiseren eerst de tweedimensionale rijruimte om een actiecodeboek te construeren, waardoor het gebruik van vooraf getrainde Diffusion Language Models voor plannings taken mogelijk wordt door middel van fine-tuning. Centraal in onze aanpak staat een veiligheidsbewust reflectiemechanisme dat iteratieve zelfcorrectie uitvoert zonder gradientberekening. Onze methode begint met doelgerichte trajectgeneratie om multimodale rijgedragingen te modelleren. Vervolgens passen we lokale zoekmethoden toe om onveilige tokens te identificeren en haalbare oplossingen te bepalen, die vervolgens dienen als veilige ankers voor regeneratie op basis van inpainting. Geëvalueerd op de NAVSIM benchmark, toont ReflectDrive significante voordelen in veiligheidskritische trajectgeneratie, en biedt het een schaalbare en betrouwbare oplossing voor autonome rijsystemen.
English
End-to-End (E2E) solutions have emerged as a mainstream approach for
autonomous driving systems, with Vision-Language-Action (VLA) models
representing a new paradigm that leverages pre-trained multimodal knowledge
from Vision-Language Models (VLMs) to interpret and interact with complex
real-world environments. However, these methods remain constrained by the
limitations of imitation learning, which struggles to inherently encode
physical rules during training. Existing approaches often rely on complex
rule-based post-refinement, employ reinforcement learning that remains largely
limited to simulation, or utilize diffusion guidance that requires
computationally expensive gradient calculations. To address these challenges,
we introduce ReflectDrive, a novel learning-based framework that integrates a
reflection mechanism for safe trajectory generation via discrete diffusion. We
first discretize the two-dimensional driving space to construct an action
codebook, enabling the use of pre-trained Diffusion Language Models for
planning tasks through fine-tuning. Central to our approach is a safety-aware
reflection mechanism that performs iterative self-correction without gradient
computation. Our method begins with goal-conditioned trajectory generation to
model multi-modal driving behaviors. Based on this, we apply local search
methods to identify unsafe tokens and determine feasible solutions, which then
serve as safe anchors for inpainting-based regeneration. Evaluated on the
NAVSIM benchmark, ReflectDrive demonstrates significant advantages in
safety-critical trajectory generation, offering a scalable and reliable
solution for autonomous driving systems.