Control Predictivo del Mundo Consciente del Riesgo para la Conducción Autónoma de Extremo a Extremo Generalizable

Resumen

Con los avances en el aprendizaje por imitación (IL) y los conjuntos de datos de conducción a gran escala, la conducción autónoma de extremo a extremo (E2E-AD) ha logrado un gran progreso recientemente. Actualmente, los métodos basados en IL se han convertido en un paradigma principal: los modelos se basan en comportamientos de conducción estándar proporcionados por expertos y aprenden a minimizar la discrepancia entre sus acciones y las acciones del experto. Sin embargo, este objetivo de "solo conducir como el experto" sufre de una generalización limitada: al encontrarse con escenarios raros o no vistos de cola larga fuera de la distribución de las demostraciones expertas, los modelos tienden a producir decisiones inseguras ante la falta de experiencia previa. Esto plantea una pregunta fundamental: ¿Puede un sistema E2E-AD tomar decisiones confiables sin ninguna supervisión de acciones expertas? Motivados por esto, proponemos un marco unificado denominado Control Predictivo de Modelo del Mundo Consciente del Riesgo (RaWMPC) para abordar este dilema de generalización mediante control robusto, sin depender de demostraciones expertas. En la práctica, RaWMPC aprovecha un modelo del mundo para predecir las consecuencias de múltiples acciones candidato y selecciona acciones de bajo riesgo mediante una evaluación explícita del riesgo. Para dotar al modelo del mundo de la capacidad de predecir los resultados de comportamientos de conducción riesgosos, diseñamos una estrategia de interacción consciente del riesgo que expone sistemáticamente al modelo del mundo a comportamientos peligrosos, haciendo que los resultados catastróficos sean predecibles y, por lo tanto, evitables. Además, para generar acciones candidato de bajo riesgo durante la prueba, introducimos un método de destilación por autoevaluación para destilar las capacidades de evitación de riesgos del modelo del mundo bien entrenado en una red generativa de propuesta de acciones, sin ninguna demostración experta. Experimentos exhaustivos muestran que RaWMPC supera a los métodos de vanguardia tanto en escenarios dentro de la distribución como fuera de la distribución, al tiempo que proporciona una interpretabilidad de decisiones superior.

English

With advances in imitation learning (IL) and large-scale driving datasets, end-to-end autonomous driving (E2E-AD) has made great progress recently. Currently, IL-based methods have become a mainstream paradigm: models rely on standard driving behaviors given by experts, and learn to minimize the discrepancy between their actions and expert actions. However, this objective of "only driving like the expert" suffers from limited generalization: when encountering rare or unseen long-tail scenarios outside the distribution of expert demonstrations, models tend to produce unsafe decisions in the absence of prior experience. This raises a fundamental question: Can an E2E-AD system make reliable decisions without any expert action supervision? Motivated by this, we propose a unified framework named Risk-aware World Model Predictive Control (RaWMPC) to address this generalization dilemma through robust control, without reliance on expert demonstrations. Practically, RaWMPC leverages a world model to predict the consequences of multiple candidate actions and selects low-risk actions through explicit risk evaluation. To endow the world model with the ability to predict the outcomes of risky driving behaviors, we design a risk-aware interaction strategy that systematically exposes the world model to hazardous behaviors, making catastrophic outcomes predictable and thus avoidable. Furthermore, to generate low-risk candidate actions at test time, we introduce a self-evaluation distillation method to distill riskavoidance capabilities from the well-trained world model into a generative action proposal network without any expert demonstration. Extensive experiments show that RaWMPC outperforms state-of-the-art methods in both in-distribution and out-of-distribution scenarios, while providing superior decision interpretability.

Control Predictivo del Mundo Consciente del Riesgo para la Conducción Autónoma de Extremo a Extremo Generalizable

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Resumen

Support