Contrôle Prédictif par Modèle du Monde Conscient du Risque pour une Conduite Autonome de Bout en Bout Généralisable

Résumé

Avec les progrès de l'apprentissage par imitation (IL) et des jeux de données de conduite à grande échelle, la conduite autonome de bout en bout (E2E-AD) a réalisé des avancées significatives récemment. Les méthodes basées sur l'IL sont devenues un paradigme dominant : les modèles s'appuient sur les comportements de conduite standard fournis par des experts et apprennent à minimiser l'écart entre leurs actions et celles de l'expert. Cependant, cet objectif de « conduire uniquement comme l'expert » souffre d'une généralisation limitée : face à des scénarios rares ou inédits (scénarios de longue traîne) en dehors de la distribution des démonstrations expertes, les modèles ont tendance à produire des décisions non sécuritaires en l'absence d'expérience préalable. Cela soulève une question fondamentale : Un système E2E-AD peut-il prendre des décisions fiables sans aucune supervision par des actions expertes ? Motivés par cette question, nous proposons un cadre unifié nommé Risk-aware World Model Predictive Control (RaWMPC) pour résoudre ce dilemme de généralisation via un contrôle robuste, sans dépendre des démonstrations expertes. Concrètement, RaWMPC utilise un modèle du monde pour prédire les conséquences de multiples actions candidates et sélectionne les actions à faible risque via une évaluation explicite du risque. Pour doter le modèle du monde de la capacité à prédire les issues de comportements de conduite risqués, nous concevons une stratégie d'interaction sensible au risque qui expose systématiquement le modèle du monde à des comportements dangereux, rendant les issues catastrophiques prévisibles et donc évitables. De plus, pour générer des actions candidates à faible risque lors des tests, nous introduisons une méthode d'auto-évaluation par distillation pour transférer les capacités d'évitement du risque du modèle du monde entraîné vers un réseau générateur de propositions d'actions, et ce sans aucune démonstration experte. Des expériences approfondies montrent que RaWMPC surpasse les méthodes de l'état de l'art dans des scénarios intra-distribution et hors-distribution, tout en offrant une interprétabilité décisionnelle supérieure.

English

With advances in imitation learning (IL) and large-scale driving datasets, end-to-end autonomous driving (E2E-AD) has made great progress recently. Currently, IL-based methods have become a mainstream paradigm: models rely on standard driving behaviors given by experts, and learn to minimize the discrepancy between their actions and expert actions. However, this objective of "only driving like the expert" suffers from limited generalization: when encountering rare or unseen long-tail scenarios outside the distribution of expert demonstrations, models tend to produce unsafe decisions in the absence of prior experience. This raises a fundamental question: Can an E2E-AD system make reliable decisions without any expert action supervision? Motivated by this, we propose a unified framework named Risk-aware World Model Predictive Control (RaWMPC) to address this generalization dilemma through robust control, without reliance on expert demonstrations. Practically, RaWMPC leverages a world model to predict the consequences of multiple candidate actions and selects low-risk actions through explicit risk evaluation. To endow the world model with the ability to predict the outcomes of risky driving behaviors, we design a risk-aware interaction strategy that systematically exposes the world model to hazardous behaviors, making catastrophic outcomes predictable and thus avoidable. Furthermore, to generate low-risk candidate actions at test time, we introduce a self-evaluation distillation method to distill riskavoidance capabilities from the well-trained world model into a generative action proposal network without any expert demonstration. Extensive experiments show that RaWMPC outperforms state-of-the-art methods in both in-distribution and out-of-distribution scenarios, while providing superior decision interpretability.

Contrôle Prédictif par Modèle du Monde Conscient du Risque pour une Conduite Autonome de Bout en Bout Généralisable

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Résumé

Support