Controle Preditivo de Modelo de Mundo com Consciência de Risco para Condução Autônoma de Ponta a Ponta Generalizável

Resumo

Com os avanços na aprendizagem por imitação (IL) e os grandes conjuntos de dados de condução, a condução autónoma de ponta a ponta (E2E-AD) tem registado grandes progressos recentemente. Atualmente, os métodos baseados em IL tornaram-se um paradigma dominante: os modelos baseiam-se em comportamentos de condução padrão fornecidos por especialistas e aprendem a minimizar a discrepância entre as suas ações e as ações do especialista. No entanto, este objetivo de "apenas conduzir como o especialista" sofre de generalização limitada: ao deparar-se com cenários raros ou de cauda longa não observados, fora da distribuição das demonstrações do especialista, os modelos tendem a produzir decisões inseguras na ausência de experiência prévia. Isto levanta uma questão fundamental: Pode um sistema E2E-AD tomar decisões fiáveis sem qualquer supervisão de ações de especialistas? Motivados por isto, propomos um quadro unificado denominado Controlo Preditivo de Modelo do Mundo com Consciência de Risco (RaWMPC) para resolver este dilema de generalização através de controlo robusto, sem depender de demonstrações de especialistas. Na prática, o RaWMPC aproveita um modelo do mundo para prever as consequências de múltiplas ações candidatas e seleciona ações de baixo risco através de uma avaliação explícita de risco. Para dotar o modelo do mundo da capacidade de prever os resultados de comportamentos de condução de risco, concebemos uma estratégia de interação com consciência de risco que expõe sistematicamente o modelo do mundo a comportamentos perigosos, tornando os resultados catastróficos previsíveis e, assim, evitáveis. Além disso, para gerar ações candidatas de baixo risco durante o teste, introduzimos um método de destilação por autoavaliação para destilar capacidades de evitamento de risco do modelo do mundo bem treinado para uma rede generativa de proposta de ações, sem qualquer demonstração de especialista. Experiências extensivas mostram que o RaWMPC supera os métodos mais avançados tanto em cenários dentro como fora da distribuição, ao mesmo tempo que fornece uma interpretabilidade de decisão superior.

English

With advances in imitation learning (IL) and large-scale driving datasets, end-to-end autonomous driving (E2E-AD) has made great progress recently. Currently, IL-based methods have become a mainstream paradigm: models rely on standard driving behaviors given by experts, and learn to minimize the discrepancy between their actions and expert actions. However, this objective of "only driving like the expert" suffers from limited generalization: when encountering rare or unseen long-tail scenarios outside the distribution of expert demonstrations, models tend to produce unsafe decisions in the absence of prior experience. This raises a fundamental question: Can an E2E-AD system make reliable decisions without any expert action supervision? Motivated by this, we propose a unified framework named Risk-aware World Model Predictive Control (RaWMPC) to address this generalization dilemma through robust control, without reliance on expert demonstrations. Practically, RaWMPC leverages a world model to predict the consequences of multiple candidate actions and selects low-risk actions through explicit risk evaluation. To endow the world model with the ability to predict the outcomes of risky driving behaviors, we design a risk-aware interaction strategy that systematically exposes the world model to hazardous behaviors, making catastrophic outcomes predictable and thus avoidable. Furthermore, to generate low-risk candidate actions at test time, we introduce a self-evaluation distillation method to distill riskavoidance capabilities from the well-trained world model into a generative action proposal network without any expert demonstration. Extensive experiments show that RaWMPC outperforms state-of-the-art methods in both in-distribution and out-of-distribution scenarios, while providing superior decision interpretability.