SimScale: Aprendendo a Dirigir por Meio de Simulação Realista em Larga Escala

Resumo

A obtenção de sistemas de condução totalmente autónomos requer a aprendizagem de decisões racionais numa vasta gama de cenários, incluindo situações críticas para a segurança e fora da distribuição de dados de treino. No entanto, estes casos estão sub-representados no corpus do mundo real recolhido por especialistas humanos. Para colmatar a falta de diversidade de dados, introduzimos uma nova e escalável estrutura de simulação capaz de sintetizar um número massivo de estados não observados a partir de registos de condução existentes. A nossa pipeline utiliza técnicas avançadas de *neural rendering* com um ambiente reativo para gerar observações de alta fidelidade de múltiplas perspetivas, controladas pela trajetória do ego veículo perturbada. Além disso, desenvolvemos um mecanismo de geração de trajetórias pseudo-especialistas para estes novos estados simulados, de modo a fornecer supervisão para a ação. Com base nos dados sintetizados, verificamos que uma simples estratégia de co-treinamento com amostras do mundo real e simuladas pode levar a melhorias significativas na robustez e generalização de vários métodos de planeamento em *benchmarks* desafiadores do mundo real, até +6,8 EPDMS no navhard e +2,9 no navtest. Mais importante ainda, tal melhoria da política escala suavemente apenas com o aumento de dados de simulação, mesmo sem a incorporação de dados adicionais do mundo real. Revelamos ainda várias descobertas cruciais sobre este sistema de aprendizagem sim-real, que designamos por SimScale, incluindo o desenho dos pseudo-especialistas e as propriedades de escalabilidade para diferentes arquiteturas de políticas. Os nossos dados de simulação e código serão disponibilizados.

English

Achieving fully autonomous driving systems requires learning rational decisions in a wide span of scenarios, including safety-critical and out-of-distribution ones. However, such cases are underrepresented in real-world corpus collected by human experts. To complement for the lack of data diversity, we introduce a novel and scalable simulation framework capable of synthesizing massive unseen states upon existing driving logs. Our pipeline utilizes advanced neural rendering with a reactive environment to generate high-fidelity multi-view observations controlled by the perturbed ego trajectory. Furthermore, we develop a pseudo-expert trajectory generation mechanism for these newly simulated states to provide action supervision. Upon the synthesized data, we find that a simple co-training strategy on both real-world and simulated samples can lead to significant improvements in both robustness and generalization for various planning methods on challenging real-world benchmarks, up to +6.8 EPDMS on navhard and +2.9 on navtest. More importantly, such policy improvement scales smoothly by increasing simulation data only, even without extra real-world data streaming in. We further reveal several crucial findings of such a sim-real learning system, which we term SimScale, including the design of pseudo-experts and the scaling properties for different policy architectures. Our simulation data and code would be released.