Risikobewusste Weltmodell-Prädiktive Regelung für generalisierbares End-to-End Autonomes Fahren
Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving
February 26, 2026
Autoren: Jiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe
cs.AI
Zusammenfassung
Dank der Fortschritte im Imitationslernen (IL) und umfangreichen Fahrdatensätzen hat das End-to-End-autonome Fahren (E2E-AD) in letzter Zeit große Fortschritte erzielt. IL-basierte Methoden sind derzeit ein Mainstream-Paradigma: Modelle stützen sich auf standardmäßige Fahrverhalten von Experten und lernen, die Diskrepanz zwischen ihren Aktionen und den Expertenaktionen zu minimieren. Dieses Ziel, "nur wie der Experte zu fahren", leidet jedoch unter einer begrenzten Generalisierungsfähigkeit: Wenn sie auf seltene oder ungesehene Long-Tail-Szenarien außerhalb der Verteilung der Expertenaufzeichnungen treffen, neigen Modelle aufgrund fehlender Vorerfahrung zu unsicheren Entscheidungen. Dies wirft eine grundlegende Frage auf: Kann ein E2E-AD-System ohne jegliche Expertenaufsicht zuverlässige Entscheidungen treffen? Ausgehend von dieser Überlegung schlagen wir einen einheitlichen Rahmen namens Risk-aware World Model Predictive Control (RaWMPC) vor, um dieses Generalisierungsdilemma durch robuste Regelung zu lösen, ohne auf Expertenaufzeichnungen angewiesen zu sein. Praktisch nutzt RaWMPC ein Weltmodell, um die Konsequenzen mehrerer Kandidatenaktionen vorherzusagen, und wählt durch explizite Risikobewertung Aktionen mit geringem Risiko aus. Um dem Weltmodell die Fähigkeit zu verleihen, die Folgen riskanter Fahrverhalten vorherzusagen, entwerfen wir eine risikobewusste Interaktionsstrategie, die das Weltmodell systematisch gefährlichen Verhaltensweisen aussetzt, wodurch katastrophale Ergebnisse vorhersehbar und somit vermeidbar werden. Darüber hinaus führen wir eine Selbstbewertungs-Distillationsmethode ein, um die Risikovermeidungsfähigkeiten des gut trainierten Weltmodells in ein generatives Aktionsvorschlagsnetzwerk zu destillieren, ohne auf Expertenaufzeichnungen zurückzugreifen, und so bei Tests Aktionen mit geringem Risiko zu generieren. Umfangreiche Experimente zeigen, dass RaWMPC in In-Distribution- und Out-of-Distribution-Szenarien state-of-the-art-Methoden übertrifft und dabei eine überlegene Entscheidungsinterpretierbarkeit bietet.
English
With advances in imitation learning (IL) and large-scale driving datasets, end-to-end autonomous driving (E2E-AD) has made great progress recently. Currently, IL-based methods have become a mainstream paradigm: models rely on standard driving behaviors given by experts, and learn to minimize the discrepancy between their actions and expert actions. However, this objective of "only driving like the expert" suffers from limited generalization: when encountering rare or unseen long-tail scenarios outside the distribution of expert demonstrations, models tend to produce unsafe decisions in the absence of prior experience. This raises a fundamental question: Can an E2E-AD system make reliable decisions without any expert action supervision? Motivated by this, we propose a unified framework named Risk-aware World Model Predictive Control (RaWMPC) to address this generalization dilemma through robust control, without reliance on expert demonstrations. Practically, RaWMPC leverages a world model to predict the consequences of multiple candidate actions and selects low-risk actions through explicit risk evaluation. To endow the world model with the ability to predict the outcomes of risky driving behaviors, we design a risk-aware interaction strategy that systematically exposes the world model to hazardous behaviors, making catastrophic outcomes predictable and thus avoidable. Furthermore, to generate low-risk candidate actions at test time, we introduce a self-evaluation distillation method to distill riskavoidance capabilities from the well-trained world model into a generative action proposal network without any expert demonstration. Extensive experiments show that RaWMPC outperforms state-of-the-art methods in both in-distribution and out-of-distribution scenarios, while providing superior decision interpretability.