ChatPaper.aiChatPaper

Риск-ориентированное прогнозное управление с моделью мира для обобщаемого сквозного автономного вождения

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

February 26, 2026
Авторы: Jiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe
cs.AI

Аннотация

С развитием имитационного обучения (IL) и крупномасштабных наборов данных о вождении, сквозное автономное вождение (E2E-AD) достигло значительного прогресса в последнее время. В настоящее время методы на основе IL стали основной парадигмой: модели полагаются на стандартные модели вождения, заданные экспертами, и обучаются минимизировать расхождение между своими действиями и действиями эксперта. Однако эта цель «вести себя только как эксперт» страдает от ограниченной обобщающей способности: при столкновении с редкими или неизвестными длиннохвостыми сценариями, выходящими за пределы распределения экспертных демонстраций, модели склонны принимать небезопасные решения из-за отсутствия предшествующего опыта. Это поднимает фундаментальный вопрос: Может ли система E2E-AD принимать надежные решения без какого-либо контроля со стороны экспертных действий? Мотивируясь этим, мы предлагаем унифицированную структуру под названием «Предиктивное управление с учетом рисков на основе моделей мира» (Risk-aware World Model Predictive Control, RaWMPC) для решения этой дилеммы обобщения с помощью робастного управления, без reliance на экспертные демонстрации. Практически RaWMPC использует модель мира для прогнозирования последствий множества кандидатных действий и выбирает действия с низким уровнем риска через явную оценку рисков. Чтобы наделить модель мира способностью предсказывать исходы рискованных моделей вождения, мы разрабатываем стратегию взаимодействия с учетом рисков, которая систематически подвергает модель мира воздействию опасного поведения, делая катастрофические исходы предсказуемыми и, следовательно, избегаемыми. Кроме того, для генерации кандидатных действий с низким уровнем риска во время тестирования мы вводим метод дистилляции самооценки, чтобы перенести способности к избеганию рисков из хорошо обученной модели мира в генеративную сеть предложения действий без каких-либо экспертных демонстраций. Многочисленные эксперименты показывают, что RaWMPC превосходит современные методы как в сценариях, соответствующих распределению данных, так и в сценариях, выходящих за его пределы, одновременно обеспечивая превосходную интерпретируемость решений.
English
With advances in imitation learning (IL) and large-scale driving datasets, end-to-end autonomous driving (E2E-AD) has made great progress recently. Currently, IL-based methods have become a mainstream paradigm: models rely on standard driving behaviors given by experts, and learn to minimize the discrepancy between their actions and expert actions. However, this objective of "only driving like the expert" suffers from limited generalization: when encountering rare or unseen long-tail scenarios outside the distribution of expert demonstrations, models tend to produce unsafe decisions in the absence of prior experience. This raises a fundamental question: Can an E2E-AD system make reliable decisions without any expert action supervision? Motivated by this, we propose a unified framework named Risk-aware World Model Predictive Control (RaWMPC) to address this generalization dilemma through robust control, without reliance on expert demonstrations. Practically, RaWMPC leverages a world model to predict the consequences of multiple candidate actions and selects low-risk actions through explicit risk evaluation. To endow the world model with the ability to predict the outcomes of risky driving behaviors, we design a risk-aware interaction strategy that systematically exposes the world model to hazardous behaviors, making catastrophic outcomes predictable and thus avoidable. Furthermore, to generate low-risk candidate actions at test time, we introduce a self-evaluation distillation method to distill riskavoidance capabilities from the well-trained world model into a generative action proposal network without any expert demonstration. Extensive experiments show that RaWMPC outperforms state-of-the-art methods in both in-distribution and out-of-distribution scenarios, while providing superior decision interpretability.
PDF21February 28, 2026