Дискретная диффузия для рефлексивных моделей "зрение-язык-действие" в автономном вождении
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving
September 24, 2025
Авторы: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang
cs.AI
Аннотация
Решения типа "от начала до конца" (End-to-End, E2E) стали основным подходом для систем автономного вождения, при этом модели "Видение-Язык-Действие" (Vision-Language-Action, VLA) представляют собой новую парадигму, которая использует предварительно обученные мультимодальные знания из моделей "Видение-Язык" (Vision-Language Models, VLMs) для интерпретации и взаимодействия со сложными реальными средами. Однако эти методы остаются ограниченными недостатками обучения с подражанием, которое с трудом кодирует физические правила в процессе обучения. Существующие подходы часто полагаются на сложные пост-обработки на основе правил, используют обучение с подкреплением, которое в основном ограничено симуляциями, или применяют диффузионное управление, требующее вычислительно затратных расчетов градиентов. Для решения этих проблем мы представляем ReflectDrive — новый обучающийся фреймворк, который интегрирует механизм рефлексии для генерации безопасных траекторий с помощью дискретной диффузии. Сначала мы дискретизируем двумерное пространство вождения для создания кодовой книги действий, что позволяет использовать предварительно обученные диффузионные языковые модели для задач планирования через тонкую настройку. Ключевым элементом нашего подхода является механизм рефлексии, учитывающий безопасность, который выполняет итеративную самокоррекцию без вычисления градиентов. Наш метод начинается с генерации траекторий, обусловленных целью, для моделирования многомодального поведения вождения. На основе этого мы применяем методы локального поиска для выявления небезопасных токенов и определения допустимых решений, которые затем служат безопасными якорями для регенерации на основе инпейнтинга. Оцененный на бенчмарке NAVSIM, ReflectDrive демонстрирует значительные преимущества в генерации траекторий, критичных для безопасности, предлагая масштабируемое и надежное решение для систем автономного вождения.
English
End-to-End (E2E) solutions have emerged as a mainstream approach for
autonomous driving systems, with Vision-Language-Action (VLA) models
representing a new paradigm that leverages pre-trained multimodal knowledge
from Vision-Language Models (VLMs) to interpret and interact with complex
real-world environments. However, these methods remain constrained by the
limitations of imitation learning, which struggles to inherently encode
physical rules during training. Existing approaches often rely on complex
rule-based post-refinement, employ reinforcement learning that remains largely
limited to simulation, or utilize diffusion guidance that requires
computationally expensive gradient calculations. To address these challenges,
we introduce ReflectDrive, a novel learning-based framework that integrates a
reflection mechanism for safe trajectory generation via discrete diffusion. We
first discretize the two-dimensional driving space to construct an action
codebook, enabling the use of pre-trained Diffusion Language Models for
planning tasks through fine-tuning. Central to our approach is a safety-aware
reflection mechanism that performs iterative self-correction without gradient
computation. Our method begins with goal-conditioned trajectory generation to
model multi-modal driving behaviors. Based on this, we apply local search
methods to identify unsafe tokens and determine feasible solutions, which then
serve as safe anchors for inpainting-based regeneration. Evaluated on the
NAVSIM benchmark, ReflectDrive demonstrates significant advantages in
safety-critical trajectory generation, offering a scalable and reliable
solution for autonomous driving systems.