ChatPaper.aiChatPaper

Risicobewust Wereldmodel Voorspellende Regeling voor Generaliseerbare End-to-End Autonome Rijsystemen

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

February 26, 2026
Auteurs: Jiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe
cs.AI

Samenvatting

Met de vooruitgang in imitatieleren (IL) en grootschalige rijdatasets heeft end-to-end autonoom rijden (E2E-AD) recentelijk grote vooruitgang geboekt. IL-gebaseerde methoden zijn momenteel een mainstream paradigma geworden: modellen vertrouwen op standaard rijgedrag van experts en leren om het verschil tussen hun eigen acties en expertacties te minimaliseren. Dit doel van "alleen rijden zoals de expert" lijdt echter onder beperkte generalisatie: wanneer zeldzame of ongebruikelijke long-tail scenario's buiten de distributie van expertdemonstraties worden tegengekomen, produceren modellen vaak onveilige beslissingen door gebrek aan eerdere ervaring. Dit roept een fundamentele vraag op: Kan een E2E-AD-systeem betrouwbare beslissingen nemen zonder enige supervisie van expertacties? </think>Gedreven door deze vraag stellen we een uniform raamwerk voor genaamd Risk-aware World Model Predictive Control (RaWMPC) om dit generalisatiedilemma aan te pakken via robuuste controle, zonder afhankelijkheid van expertdemonstraties. </think>In de praktijk benut RaWMPC een wereldmodel om de gevolgen van meerdere kandidaatacties te voorspellen en selecteert laag-risico acties via expliciete risicobeoordeling. Om het wereldmodel het vermogen te geven de uitkomsten van riskant rijgedrag te voorspellen, ontwerpen we een risicobewuste interactiestrategie die het wereldmodel systematisch blootstelt aan gevaarlijk gedrag, waardoor catastrofale uitkomsten voorspelbaar en dus vermijdbaar worden. Verder introduceren we een zelfevaluatiedistillatiemethode om risicomijdingscapaciteiten vanuit het getrainde wereldmodel te distilleren naar een generatief actievoorstelnetwerk, zonder enige expertdemonstratie, om tijdens tests laag-risico kandidaatacties te genereren. Uitgebreide experimenten tonen aan dat RaWMPC superieure prestaties levert vergeleken met state-of-the-art methoden in zowel in-distributie als out-of-distributie scenario's, terwijl het superieure beslissingsinterpreteerbaarheid biedt.
English
With advances in imitation learning (IL) and large-scale driving datasets, end-to-end autonomous driving (E2E-AD) has made great progress recently. Currently, IL-based methods have become a mainstream paradigm: models rely on standard driving behaviors given by experts, and learn to minimize the discrepancy between their actions and expert actions. However, this objective of "only driving like the expert" suffers from limited generalization: when encountering rare or unseen long-tail scenarios outside the distribution of expert demonstrations, models tend to produce unsafe decisions in the absence of prior experience. This raises a fundamental question: Can an E2E-AD system make reliable decisions without any expert action supervision? Motivated by this, we propose a unified framework named Risk-aware World Model Predictive Control (RaWMPC) to address this generalization dilemma through robust control, without reliance on expert demonstrations. Practically, RaWMPC leverages a world model to predict the consequences of multiple candidate actions and selects low-risk actions through explicit risk evaluation. To endow the world model with the ability to predict the outcomes of risky driving behaviors, we design a risk-aware interaction strategy that systematically exposes the world model to hazardous behaviors, making catastrophic outcomes predictable and thus avoidable. Furthermore, to generate low-risk candidate actions at test time, we introduce a self-evaluation distillation method to distill riskavoidance capabilities from the well-trained world model into a generative action proposal network without any expert demonstration. Extensive experiments show that RaWMPC outperforms state-of-the-art methods in both in-distribution and out-of-distribution scenarios, while providing superior decision interpretability.
PDF21March 16, 2026