RadarGen: Erzeugung von Automotive-Radar-Punktwolken aus Kameradaten
RadarGen: Automotive Radar Point Cloud Generation from Cameras
December 19, 2025
papers.authors: Tomer Borreda, Fangqiang Ding, Sanja Fidler, Shengyu Huang, Or Litany
cs.AI
papers.abstract
Wir stellen RadarGen vor, ein Diffusionsmodell zur Synthese realistischer automobiler Radar-Punktwolken aus Multi-View-Kamerabildern. RadarGen adaptiert effiziente Bild-Latent-Diffusion für den Radarbereich, indem es Radarmessungen in einer Draufsichtdarstellung abbildet, die die räumliche Struktur zusammen mit Radarquerschnitt (RCS) und Doppler-Attributen kodiert. Ein leichtgewichtiger Rekonstruktionsschritt stellt die Punktwolken aus den generierten Karten wieder her. Um die Generierung besser mit der visuellen Szene abzustimmen, integriert RadarGen aus vortrainierten Foundation-Modellen extrahierte, draufsichtausgerichtete Tiefen-, Semantik- und Bewegungsinformationen, die den stochastischen Generierungsprozess in Richtung physikalisch plausibler Radarmuster lenken. Die Konditionierung auf Kamerabilder macht den Ansatz grundsätzlich breit kompatibel mit bestehenden visuellen Datensätzen und Simulationsframeworks und eröffnet so eine skalierbare Richtung für multimodale generative Simulation. Evaluationen auf umfangreichen Fahrdaten zeigen, dass RadarGen charakteristische Radarmessverteilungen erfasst und die Lücke zu auf Real-Daten trainierten Wahrnehmungsmodellen verringert, was einen Schritt in Richtung einer vereinheitlichten generativen Simulation über Sensormodalitäten hinweg darstellt.
English
We present RadarGen, a diffusion model for synthesizing realistic automotive radar point clouds from multi-view camera imagery. RadarGen adapts efficient image-latent diffusion to the radar domain by representing radar measurements in bird's-eye-view form that encodes spatial structure together with radar cross section (RCS) and Doppler attributes. A lightweight recovery step reconstructs point clouds from the generated maps. To better align generation with the visual scene, RadarGen incorporates BEV-aligned depth, semantic, and motion cues extracted from pretrained foundation models, which guide the stochastic generation process toward physically plausible radar patterns. Conditioning on images makes the approach broadly compatible, in principle, with existing visual datasets and simulation frameworks, offering a scalable direction for multimodal generative simulation. Evaluations on large-scale driving data show that RadarGen captures characteristic radar measurement distributions and reduces the gap to perception models trained on real data, marking a step toward unified generative simulation across sensing modalities.