RadarGen: Генерация облаков точек автомобильного радара на основе камер
RadarGen: Automotive Radar Point Cloud Generation from Cameras
December 19, 2025
Авторы: Tomer Borreda, Fangqiang Ding, Sanja Fidler, Shengyu Huang, Or Litany
cs.AI
Аннотация
Мы представляем RadarGen — диффузионную модель для синтеза реалистичных точечных облаков автомобильного радара на основе многовидовых камерных изображений. RadarGen адаптирует эффективную латентную диффузию в пространстве изображений для радарной области, представляя измерения радара в виде карты с высоты птичьего полёта, которая кодирует пространственную структуру вместе с эффективной площадью рассеяния (ЭПР) и доплеровскими атрибутами. Облегчённый этап восстановления реконструирует точечные облака из сгенерированных карт. Для лучшего согласования генерации с визуальной сценой RadarGen включает в себя выровненные в BEV глубинные, семантические и Motion-признаки, извлечённые из предварительно обученных фундаментальных моделей, которые направляют стохастический процесс генерации в сторону физически правдоподобных радарных паттернов. Условность по изображениям делает подход в принципе широко совместимым с существующими визуальными наборами данных и симуляционными框架, предлагая масштабируемое направление для мультимодального генеративного моделирования. Оценки на данных крупномасштабного вождения показывают, что RadarGen воспроизводит характерные распределения радарных измерений и сокращает разрыв с моделями восприятия, обученными на реальных данных, что знаменует шаг к унифицированному генеративному моделированию для различных сенсорных модальностей.
English
We present RadarGen, a diffusion model for synthesizing realistic automotive radar point clouds from multi-view camera imagery. RadarGen adapts efficient image-latent diffusion to the radar domain by representing radar measurements in bird's-eye-view form that encodes spatial structure together with radar cross section (RCS) and Doppler attributes. A lightweight recovery step reconstructs point clouds from the generated maps. To better align generation with the visual scene, RadarGen incorporates BEV-aligned depth, semantic, and motion cues extracted from pretrained foundation models, which guide the stochastic generation process toward physically plausible radar patterns. Conditioning on images makes the approach broadly compatible, in principle, with existing visual datasets and simulation frameworks, offering a scalable direction for multimodal generative simulation. Evaluations on large-scale driving data show that RadarGen captures characteristic radar measurement distributions and reduces the gap to perception models trained on real data, marking a step toward unified generative simulation across sensing modalities.