Controllo Predittivo del Mondo con Consapevolezza del Rischio per una Guida Autonoma End-to-End Generalizzabile
Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving
February 26, 2026
Autori: Jiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe
cs.AI
Abstract
Con i progressi nell'apprendimento per imitazione (IL) e la disponibilità di dataset di guida su larga scala, la guida autonoma end-to-end (E2E-AD) ha compiuto recentemente grandi passi avanti. Attualmente, i metodi basati su IL sono diventati un paradigma dominante: i modelli si basano sui comportamenti di guida standard forniti da esperti e apprendono a minimizzare la discrepanza tra le loro azioni e quelle dell'esperto. Tuttavia, questo obiettivo di "guidare solo come l'esperto" soffre di una generalizzazione limitata: quando si incontrano scenari rari o non visti di coda lunga al di fuori della distribuzione delle dimostrazioni esperte, i modelli tendono a produrre decisioni non sicure in assenza di esperienza pregressa. Ciò solleva una questione fondamentale: un sistema E2E-AD può prendere decisioni affidabili senza alcuna supervisione delle azioni esperte? Motivati da questo, proponiamo un framework unificato chiamato Risk-aware World Model Predictive Control (RaWMPC) per affrontare questo dilemma della generalizzazione attraverso un controllo robusto, senza fare affidamento su dimostrazioni esperte. Nella pratica, RaWMPC utilizza un world model per prevedere le conseguenze di multiple azioni candidate e seleziona azioni a basso rischio attraverso una valutazione esplicita del rischio. Per dotare il world model della capacità di prevedere gli esiti di comportamenti di guida rischiosi, progettiamo una strategia di interazione risk-aware che espone sistematicamente il world model a comportamenti pericolosi, rendendo prevedibili, e quindi evitabili, esiti catastrofici. Inoltre, per generare azioni candidate a basso rischio durante il test, introduciamo un metodo di distillazione tramite autovalutazione per distillare le capacità di evitamento del rischio dal world model addestrato in una rete generativa per la proposta di azioni, senza alcuna dimostrazione esperta. Esperimenti estensivi mostrano che RaWMPC supera i metodi allo stato dell'arte sia in scenari in-distribution che out-of-distribution, fornendo al contempo una superiore interpretabilità delle decisioni.
English
With advances in imitation learning (IL) and large-scale driving datasets, end-to-end autonomous driving (E2E-AD) has made great progress recently. Currently, IL-based methods have become a mainstream paradigm: models rely on standard driving behaviors given by experts, and learn to minimize the discrepancy between their actions and expert actions. However, this objective of "only driving like the expert" suffers from limited generalization: when encountering rare or unseen long-tail scenarios outside the distribution of expert demonstrations, models tend to produce unsafe decisions in the absence of prior experience. This raises a fundamental question: Can an E2E-AD system make reliable decisions without any expert action supervision? Motivated by this, we propose a unified framework named Risk-aware World Model Predictive Control (RaWMPC) to address this generalization dilemma through robust control, without reliance on expert demonstrations. Practically, RaWMPC leverages a world model to predict the consequences of multiple candidate actions and selects low-risk actions through explicit risk evaluation. To endow the world model with the ability to predict the outcomes of risky driving behaviors, we design a risk-aware interaction strategy that systematically exposes the world model to hazardous behaviors, making catastrophic outcomes predictable and thus avoidable. Furthermore, to generate low-risk candidate actions at test time, we introduce a self-evaluation distillation method to distill riskavoidance capabilities from the well-trained world model into a generative action proposal network without any expert demonstration. Extensive experiments show that RaWMPC outperforms state-of-the-art methods in both in-distribution and out-of-distribution scenarios, while providing superior decision interpretability.