Difusión Discreta para Modelos de Visión-Lenguaje-Acción Reflexivos en Conducción Autónoma
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving
September 24, 2025
Autores: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang
cs.AI
Resumen
Las soluciones de extremo a extremo (E2E) han surgido como un enfoque predominante para los sistemas de conducción autónoma, con los modelos Visión-Lenguaje-Acción (VLA) representando un nuevo paradigma que aprovecha el conocimiento multimodal preentrenado de los Modelos de Visión-Lenguaje (VLM) para interpretar e interactuar con entornos complejos del mundo real. Sin embargo, estos métodos siguen limitados por las restricciones del aprendizaje por imitación, que lucha por codificar inherentemente reglas físicas durante el entrenamiento. Los enfoques existentes a menudo dependen de refinamientos posteriores basados en reglas complejas, emplean aprendizaje por refuerzo que sigue siendo en gran medida limitado a la simulación, o utilizan guías de difusión que requieren cálculos de gradiente computacionalmente costosos. Para abordar estos desafíos, presentamos ReflectDrive, un marco novedoso basado en aprendizaje que integra un mecanismo de reflexión para la generación segura de trayectorias mediante difusión discreta. Primero discretizamos el espacio de conducción bidimensional para construir un libro de códigos de acciones, permitiendo el uso de Modelos de Lenguaje de Difusión preentrenados para tareas de planificación mediante ajuste fino. Central en nuestro enfoque es un mecanismo de reflexión consciente de la seguridad que realiza autocorrecciones iterativas sin cálculo de gradientes. Nuestro método comienza con la generación de trayectorias condicionadas por objetivos para modelar comportamientos de conducción multimodales. A partir de esto, aplicamos métodos de búsqueda local para identificar tokens inseguros y determinar soluciones factibles, que luego sirven como anclajes seguros para la regeneración basada en inpainting. Evaluado en el benchmark NAVSIM, ReflectDrive demuestra ventajas significativas en la generación de trayectorias críticas para la seguridad, ofreciendo una solución escalable y confiable para sistemas de conducción autónoma.
English
End-to-End (E2E) solutions have emerged as a mainstream approach for
autonomous driving systems, with Vision-Language-Action (VLA) models
representing a new paradigm that leverages pre-trained multimodal knowledge
from Vision-Language Models (VLMs) to interpret and interact with complex
real-world environments. However, these methods remain constrained by the
limitations of imitation learning, which struggles to inherently encode
physical rules during training. Existing approaches often rely on complex
rule-based post-refinement, employ reinforcement learning that remains largely
limited to simulation, or utilize diffusion guidance that requires
computationally expensive gradient calculations. To address these challenges,
we introduce ReflectDrive, a novel learning-based framework that integrates a
reflection mechanism for safe trajectory generation via discrete diffusion. We
first discretize the two-dimensional driving space to construct an action
codebook, enabling the use of pre-trained Diffusion Language Models for
planning tasks through fine-tuning. Central to our approach is a safety-aware
reflection mechanism that performs iterative self-correction without gradient
computation. Our method begins with goal-conditioned trajectory generation to
model multi-modal driving behaviors. Based on this, we apply local search
methods to identify unsafe tokens and determine feasible solutions, which then
serve as safe anchors for inpainting-based regeneration. Evaluated on the
NAVSIM benchmark, ReflectDrive demonstrates significant advantages in
safety-critical trajectory generation, offering a scalable and reliable
solution for autonomous driving systems.