Diffusion discrète pour les modèles vision-langage-action réflexifs dans la conduite autonome
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving
September 24, 2025
papers.authors: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang
cs.AI
papers.abstract
Les solutions de bout en bout (End-to-End, E2E) sont devenues une approche dominante pour les systèmes de conduite autonome, avec les modèles Vision-Langage-Action (VLA) représentant un nouveau paradigme qui exploite les connaissances multimodales pré-entraînées des modèles Vision-Langage (VLM) pour interpréter et interagir avec des environnements réels complexes. Cependant, ces méthodes restent limitées par les contraintes de l'apprentissage par imitation, qui peine à encoder intrinsèquement les règles physiques pendant l'entraînement. Les approches existantes reposent souvent sur un post-affinement complexe basé sur des règles, utilisent un apprentissage par renforcement largement confiné à la simulation, ou emploient une guidance par diffusion nécessitant des calculs de gradient coûteux en termes de calcul. Pour relever ces défis, nous introduisons ReflectDrive, un nouveau cadre d'apprentissage intégrant un mécanisme de réflexion pour la génération de trajectoires sûres via une diffusion discrète. Nous commençons par discrétiser l'espace de conduite bidimensionnel pour construire un codebook d'actions, permettant l'utilisation de modèles de diffusion de langage pré-entraînés pour les tâches de planification grâce à un ajustement fin. Au cœur de notre approche se trouve un mécanisme de réflexion axé sur la sécurité, qui effectue une auto-correction itérative sans calcul de gradient. Notre méthode commence par la génération de trajectoires conditionnées par un objectif pour modéliser des comportements de conduite multimodaux. Sur cette base, nous appliquons des méthodes de recherche locale pour identifier les tokens non sécurisés et déterminer des solutions réalisables, qui servent ensuite d'ancres sûres pour une régénération basée sur l'inpainting. Évalué sur le benchmark NAVSIM, ReflectDrive démontre des avantages significatifs dans la génération de trajectoires critiques pour la sécurité, offrant une solution évolutive et fiable pour les systèmes de conduite autonome.
English
End-to-End (E2E) solutions have emerged as a mainstream approach for
autonomous driving systems, with Vision-Language-Action (VLA) models
representing a new paradigm that leverages pre-trained multimodal knowledge
from Vision-Language Models (VLMs) to interpret and interact with complex
real-world environments. However, these methods remain constrained by the
limitations of imitation learning, which struggles to inherently encode
physical rules during training. Existing approaches often rely on complex
rule-based post-refinement, employ reinforcement learning that remains largely
limited to simulation, or utilize diffusion guidance that requires
computationally expensive gradient calculations. To address these challenges,
we introduce ReflectDrive, a novel learning-based framework that integrates a
reflection mechanism for safe trajectory generation via discrete diffusion. We
first discretize the two-dimensional driving space to construct an action
codebook, enabling the use of pre-trained Diffusion Language Models for
planning tasks through fine-tuning. Central to our approach is a safety-aware
reflection mechanism that performs iterative self-correction without gradient
computation. Our method begins with goal-conditioned trajectory generation to
model multi-modal driving behaviors. Based on this, we apply local search
methods to identify unsafe tokens and determine feasible solutions, which then
serve as safe anchors for inpainting-based regeneration. Evaluated on the
NAVSIM benchmark, ReflectDrive demonstrates significant advantages in
safety-critical trajectory generation, offering a scalable and reliable
solution for autonomous driving systems.