운전 세계 모델을 인식 과제의 합성 데이터 생성기로 재고찰하기
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks
October 22, 2025
저자: Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang
cs.AI
초록
최근 주행 세계 모델의 발전으로 고품질 RGB 비디오 또는 멀티모달 비디오의 제어 가능한 생성이 가능해졌습니다. 기존 방법론은 주로 생성 품질과 제어 가능성과 관련된 평가 지표에 중점을 둡니다. 그러나 자율 주행 성능에 매우 중요한 하위 인식 작업의 평가는 종종 간과되고 있습니다. 기존 방법론은 일반적으로 합성 데이터로 사전 학습한 후 실제 데이터로 미세 조정하는 훈련 전략을 사용하여 기준 방법(실제 데이터만 사용) 대비 두 배의 에포크가 소요됩니다. 기준 방법의 에포크를 두 배로 늘리면 합성 데이터의 이점은 무시할 수 있을 정도로 줄어듭니다. 합성 데이터의 이점을 철저히 입증하기 위해 우리는 하위 인식 작업 향상을 위해 설계된 새로운 합성 데이터 생성 프레임워크인 Dream4Drive를 소개합니다. Dream4Drive는 먼저 입력 비디오를 여러 3D 인식 안내 맵으로 분해한 후, 이러한 안내 맵에 3D 자산을 렌더링합니다. 마지막으로, 주행 세계 모델을 미세 조정하여 편집된 다중 뷰의 실제 같은 비디오를 생성하며, 이는 하위 인식 모델 훈련에 사용될 수 있습니다. Dream4Drive는 대규모 다중 뷰 코너 케이스 생성에 전례 없는 유연성을 제공하여 자율 주행의 코너 케이스 인식 성능을 크게 향상시킵니다. 향후 연구를 촉진하기 위해 우리는 주행 시나리오의 일반적인 범주를 포괄하고 다양한 3D 인식 비디오 편집을 가능하게 하는 DriveObj3D라는 대규모 3D 자산 데이터셋도 공개합니다. 포괄적인 실험을 통해 Dream4Drive가 다양한 훈련 에포크 하에서 하위 인식 모델의 성능을 효과적으로 향상시킬 수 있음을 입증합니다.
English
Recent advancements in driving world models enable controllable generation of
high-quality RGB videos or multimodal videos. Existing methods primarily focus
on metrics related to generation quality and controllability. However, they
often overlook the evaluation of downstream perception tasks, which are
really crucial for the performance of autonomous driving. Existing
methods usually leverage a training strategy that first pretrains on synthetic
data and finetunes on real data, resulting in twice the epochs compared to the
baseline (real data only). When we double the epochs in the baseline, the
benefit of synthetic data becomes negligible. To thoroughly demonstrate the
benefit of synthetic data, we introduce Dream4Drive, a novel synthetic data
generation framework designed for enhancing the downstream perception tasks.
Dream4Drive first decomposes the input video into several 3D-aware guidance
maps and subsequently renders the 3D assets onto these guidance maps. Finally,
the driving world model is fine-tuned to produce the edited, multi-view
photorealistic videos, which can be used to train the downstream perception
models. Dream4Drive enables unprecedented flexibility in generating multi-view
corner cases at scale, significantly boosting corner case perception in
autonomous driving. To facilitate future research, we also contribute a
large-scale 3D asset dataset named DriveObj3D, covering the typical categories
in driving scenarios and enabling diverse 3D-aware video editing. We conduct
comprehensive experiments to show that Dream4Drive can effectively boost the
performance of downstream perception models under various training epochs.
Page: https://wm-research.github.io/Dream4Drive/ GitHub Link:
https://github.com/wm-research/Dream4Drive