ChatPaper.aiChatPaper

일반화 가능한 종단간 자율주행을 위한 위험 인식 세계 모델 예측 제어

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

February 26, 2026
저자: Jiangxin Sun, Feng Xue, Teng Long, Chang Liu, Jian-Fang Hu, Wei-Shi Zheng, Nicu Sebe
cs.AI

초록

모방 학습(IL)과 대규모 운전 데이터셋의 발전에 힘입어 최근 엔드투엔드 자율주행(E2E-AD)이 큰 진전을 보였습니다. 현재 IL 기반 방법론은 주류 패러다임으로 자리 잡았으며, 모델은 전문가가 제공하는 표준 운전 행동에 의존하여 자신의 행동과 전문가 행동 간 차이를 최소화하도록 학습합니다. 그러나 "오직 전문가처럼 운전하기"라는 이 목표는 제한된 일반화 성능을 보입니다: 전문가 시범 데이터 분포를 벗어난 희귀하거나 보지 못한 롱테일 시나리오에 직면할 때, 모델은 사전 경험의 부재로 인해 안전하지 않은 결정을 내리는 경향이 있습니다. 이는 근본적인 질문을 제기합니다: 전문가 행동 감독 없이도 E2E-AD 시스템이 신뢰할 수 있는 결정을 내릴 수 있을까요? 이에 동기를 받아, 우리는 전문가 시범 데이터에 의존하지 않고 강건한 제어를 통해 이 일반화 딜레마를 해결하는 통합 프레임워크인 위험 인지 세계 모델 예측 제어(RaWMPC)를 제안합니다. 실제로 RaWMPC는 세계 모델을 활용하여 여러 후보 행동의 결과를 예측하고 명시적 위험 평가를 통해 저위험 행동을 선택합니다. 세계 모델이 위험한 운전 행동의 결과를 예측할 수 있는 능력을 갖추도록 하기 위해, 우리는 세계 모델이 체계적으로 위험 행동에 노출되도록 하여 치명적 결과를 예측 가능하고 thus 회피 가능하게 만드는 위험 인지 상호작용 전략을 설계합니다. 더 나아가 테스트 시점에 저위험 후보 행동을 생성하기 위해, 우리는 잘 훈련된 세계 모델의 위험 회피 능력을 전문가 시범 데이터 없이 생성적 행동 제안 네트워크로 증류하는 자기 평가 증류 방법을 도입합니다. 광범위한 실험을 통해 RaWMPC가 분포 내 및 분포 외 시나리오 모두에서 최첨단 방법론을 능가하는 동시에 우수한 결정 해석 가능성을 제공함을 입증했습니다.
English
With advances in imitation learning (IL) and large-scale driving datasets, end-to-end autonomous driving (E2E-AD) has made great progress recently. Currently, IL-based methods have become a mainstream paradigm: models rely on standard driving behaviors given by experts, and learn to minimize the discrepancy between their actions and expert actions. However, this objective of "only driving like the expert" suffers from limited generalization: when encountering rare or unseen long-tail scenarios outside the distribution of expert demonstrations, models tend to produce unsafe decisions in the absence of prior experience. This raises a fundamental question: Can an E2E-AD system make reliable decisions without any expert action supervision? Motivated by this, we propose a unified framework named Risk-aware World Model Predictive Control (RaWMPC) to address this generalization dilemma through robust control, without reliance on expert demonstrations. Practically, RaWMPC leverages a world model to predict the consequences of multiple candidate actions and selects low-risk actions through explicit risk evaluation. To endow the world model with the ability to predict the outcomes of risky driving behaviors, we design a risk-aware interaction strategy that systematically exposes the world model to hazardous behaviors, making catastrophic outcomes predictable and thus avoidable. Furthermore, to generate low-risk candidate actions at test time, we introduce a self-evaluation distillation method to distill riskavoidance capabilities from the well-trained world model into a generative action proposal network without any expert demonstration. Extensive experiments show that RaWMPC outperforms state-of-the-art methods in both in-distribution and out-of-distribution scenarios, while providing superior decision interpretability.
PDF21February 28, 2026