SimScale: 대규모 실제 시뮬레이션을 통한 주행 학습
SimScale: Learning to Drive via Real-World Simulation at Scale
November 28, 2025
저자: Haochen Tian, Tianyu Li, Haochen Liu, Jiazhi Yang, Yihang Qiu, Guang Li, Junli Wang, Yinfeng Gao, Zhang Zhang, Liang Wang, Hangjun Ye, Tieniu Tan, Long Chen, Hongyang Li
cs.AI
초록
완전 자율 주행 시스템을 달성하기 위해서는 안전 위기 및 분포 외 시나리오를 포함한 광범위한 상황에서 합리적인 결정을 학습해야 합니다. 그러나 이러한 사례들은 인간 전문가가 수집한 실제 데이터에서는 충분히 표현되지 않습니다. 데이터 다양성 부족을 보완하기 위해, 우리는 기존 주행 기록을 기반으로 대량의 미확인 상태를 합성할 수 있는 새로운 확장 가능 시뮬레이션 프레임워크를 소개합니다. 우리의 파이프라인은 반응형 환경과 함께 고급 신경 렌더링을 활용하여 교란된 자차 궤적에 의해 제어되는 고화질 다중 시점 관측값을 생성합니다. 더 나아가 이러한 새로 시뮬레이션된 상태에 대한 의사 전문가 궤적 생성 메커니즘을 개발하여 행동 지도를 제공합니다. 합성된 데이터를 통해, 실제와 시뮬레이션 샘플 모두에 대한 간단한 공동 학습 전략이 어려운 실제 벤치마크에서 다양한 계획 방법의 견고성과 일반화 성능을 크게 향상시킬 수 있음을 확인했습니다(navhard 기준 최대 +6.8 EPDMS, navtest 기준 +2.9). 더 중요한 것은, 추가적인 실제 데이터 유입 없이 시뮬레이션 데이터만 증가시켜도 정책 개선이 원활하게 확장된다는 점입니다. 우리는 SimScale이라 명명한 이러한 시뮬-리얼 학습 시스템의 몇 가지 중요한 발견,包括 의사 전문가 설계 및 다양한 정책 아키텍처에 대한 확장 특성을 추가로 밝혔습니다. 우리의 시뮬레이션 데이터와 코드는 공개될 예정입니다.
English
Achieving fully autonomous driving systems requires learning rational decisions in a wide span of scenarios, including safety-critical and out-of-distribution ones. However, such cases are underrepresented in real-world corpus collected by human experts. To complement for the lack of data diversity, we introduce a novel and scalable simulation framework capable of synthesizing massive unseen states upon existing driving logs. Our pipeline utilizes advanced neural rendering with a reactive environment to generate high-fidelity multi-view observations controlled by the perturbed ego trajectory. Furthermore, we develop a pseudo-expert trajectory generation mechanism for these newly simulated states to provide action supervision. Upon the synthesized data, we find that a simple co-training strategy on both real-world and simulated samples can lead to significant improvements in both robustness and generalization for various planning methods on challenging real-world benchmarks, up to +6.8 EPDMS on navhard and +2.9 on navtest. More importantly, such policy improvement scales smoothly by increasing simulation data only, even without extra real-world data streaming in. We further reveal several crucial findings of such a sim-real learning system, which we term SimScale, including the design of pseudo-experts and the scaling properties for different policy architectures. Our simulation data and code would be released.