Difusão Discreta para Modelos de Visão-Linguagem-Ação Reflexivos em Condução Autônoma
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving
September 24, 2025
Autores: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang
cs.AI
Resumo
Soluções End-to-End (E2E) emergiram como uma abordagem predominante para sistemas de condução autônoma, com modelos Visão-Linguagem-Ação (VLA) representando um novo paradigma que aproveita o conhecimento multimodal pré-treinado de Modelos de Visão-Linguagem (VLMs) para interpretar e interagir com ambientes complexos do mundo real. No entanto, esses métodos permanecem limitados pelas restrições do aprendizado por imitação, que luta para codificar regras físicas de forma inerente durante o treinamento. As abordagens existentes frequentemente dependem de refinamentos pós-processados baseados em regras complexas, empregam aprendizado por reforço que permanece amplamente limitado a simulações ou utilizam orientação por difusão que requer cálculos de gradiente computacionalmente caros. Para enfrentar esses desafios, introduzimos o ReflectDrive, uma nova estrutura baseada em aprendizado que integra um mecanismo de reflexão para geração segura de trajetórias via difusão discreta. Primeiro, discretizamos o espaço bidimensional de condução para construir um codebook de ações, permitindo o uso de Modelos de Linguagem de Difusão pré-treinados para tarefas de planejamento por meio de ajuste fino. Central à nossa abordagem é um mecanismo de reflexão consciente da segurança que realiza autocorreção iterativa sem computação de gradiente. Nosso método começa com a geração de trajetórias condicionadas por objetivos para modelar comportamentos de condução multimodais. Com base nisso, aplicamos métodos de busca local para identificar tokens inseguros e determinar soluções viáveis, que então servem como âncoras seguras para regeneração baseada em inpainting. Avaliado no benchmark NAVSIM, o ReflectDrive demonstra vantagens significativas na geração de trajetórias críticas para segurança, oferecendo uma solução escalável e confiável para sistemas de condução autônoma.
English
End-to-End (E2E) solutions have emerged as a mainstream approach for
autonomous driving systems, with Vision-Language-Action (VLA) models
representing a new paradigm that leverages pre-trained multimodal knowledge
from Vision-Language Models (VLMs) to interpret and interact with complex
real-world environments. However, these methods remain constrained by the
limitations of imitation learning, which struggles to inherently encode
physical rules during training. Existing approaches often rely on complex
rule-based post-refinement, employ reinforcement learning that remains largely
limited to simulation, or utilize diffusion guidance that requires
computationally expensive gradient calculations. To address these challenges,
we introduce ReflectDrive, a novel learning-based framework that integrates a
reflection mechanism for safe trajectory generation via discrete diffusion. We
first discretize the two-dimensional driving space to construct an action
codebook, enabling the use of pre-trained Diffusion Language Models for
planning tasks through fine-tuning. Central to our approach is a safety-aware
reflection mechanism that performs iterative self-correction without gradient
computation. Our method begins with goal-conditioned trajectory generation to
model multi-modal driving behaviors. Based on this, we apply local search
methods to identify unsafe tokens and determine feasible solutions, which then
serve as safe anchors for inpainting-based regeneration. Evaluated on the
NAVSIM benchmark, ReflectDrive demonstrates significant advantages in
safety-critical trajectory generation, offering a scalable and reliable
solution for autonomous driving systems.