Diskrete Diffusion für reflektive Vision-Sprache-Handlungs-Modelle im autonomen Fahren
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving
September 24, 2025
papers.authors: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang
cs.AI
papers.abstract
End-to-End (E2E)-Lösungen haben sich als Mainstream-Ansatz für autonome Fahrzeugsysteme etabliert, wobei Vision-Language-Action (VLA)-Modelle ein neues Paradigma darstellen, das vortrainiertes multimodales Wissen aus Vision-Language Models (VLMs) nutzt, um komplexe reale Umgebungen zu interpretieren und mit ihnen zu interagieren. Diese Methoden sind jedoch weiterhin durch die Einschränkungen des Imitationslernens begrenzt, das Schwierigkeiten hat, physikalische Regeln während des Trainings inhärent zu kodieren. Bestehende Ansätze verlassen sich oft auf komplexe regelbasierte Nachverfeinerungen, verwenden Reinforcement Learning, das weitgehend auf Simulationen beschränkt bleibt, oder nutzen Diffusionsführung, die rechenintensive Gradientenberechnungen erfordert. Um diese Herausforderungen zu bewältigen, stellen wir ReflectDrive vor, ein neuartiges lernbasiertes Framework, das einen Reflexionsmechanismus zur sicheren Trajektoriengenerierung über diskrete Diffusion integriert. Zunächst diskretisieren wir den zweidimensionalen Fahrraum, um ein Aktionscodebuch zu erstellen, das die Verwendung vortrainierter Diffusion Language Models für Planungsaufgaben durch Feinabstimmung ermöglicht. Kern unseres Ansatzes ist ein sicherheitsbewusster Reflexionsmechanismus, der iterative Selbstkorrekturen ohne Gradientenberechnung durchführt. Unsere Methode beginnt mit der zielbedingten Trajektoriengenerierung, um multimodale Fahrverhalten zu modellieren. Darauf aufbauend wenden wir lokale Suchmethoden an, um unsichere Tokens zu identifizieren und machbare Lösungen zu bestimmen, die dann als sichere Anker für eine inpainting-basierte Regeneration dienen. Auf dem NAVSIM-Benchmark bewertet, zeigt ReflectDrive signifikante Vorteile bei der sicherheitskritischen Trajektoriengenerierung und bietet eine skalierbare und zuverlässige Lösung für autonome Fahrzeugsysteme.
English
End-to-End (E2E) solutions have emerged as a mainstream approach for
autonomous driving systems, with Vision-Language-Action (VLA) models
representing a new paradigm that leverages pre-trained multimodal knowledge
from Vision-Language Models (VLMs) to interpret and interact with complex
real-world environments. However, these methods remain constrained by the
limitations of imitation learning, which struggles to inherently encode
physical rules during training. Existing approaches often rely on complex
rule-based post-refinement, employ reinforcement learning that remains largely
limited to simulation, or utilize diffusion guidance that requires
computationally expensive gradient calculations. To address these challenges,
we introduce ReflectDrive, a novel learning-based framework that integrates a
reflection mechanism for safe trajectory generation via discrete diffusion. We
first discretize the two-dimensional driving space to construct an action
codebook, enabling the use of pre-trained Diffusion Language Models for
planning tasks through fine-tuning. Central to our approach is a safety-aware
reflection mechanism that performs iterative self-correction without gradient
computation. Our method begins with goal-conditioned trajectory generation to
model multi-modal driving behaviors. Based on this, we apply local search
methods to identify unsafe tokens and determine feasible solutions, which then
serve as safe anchors for inpainting-based regeneration. Evaluated on the
NAVSIM benchmark, ReflectDrive demonstrates significant advantages in
safety-critical trajectory generation, offering a scalable and reliable
solution for autonomous driving systems.