Ctrl-Crash: Kontrollierbare Diffusion für realistische Autounfälle
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes
May 30, 2025
Autoren: Anthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal
cs.AI
Zusammenfassung
Video-Diffusionstechniken haben in den letzten Jahren erhebliche Fortschritte gemacht; jedoch haben sie Schwierigkeiten, realistische Darstellungen von Autounfällen zu erzeugen, da Unfallereignisse in den meisten Fahrzeugdatensätzen nur selten vorkommen. Die Verbesserung der Verkehrssicherheit erfordert realistische und steuerbare Unfallsimulationen. Um dieses Problem zu lösen, schlagen wir Ctrl-Crash vor, ein steuerbares Modell zur Generierung von Autounfallvideos, das auf Signale wie Begrenzungsrahmen, Unfalltypen und ein initiales Bildframe konditioniert. Unser Ansatz ermöglicht die Generierung kontrafaktischer Szenarien, bei denen geringfügige Variationen in den Eingaben zu dramatisch unterschiedlichen Unfallergebnissen führen können. Um eine fein abgestimmte Steuerung zur Inferenzzeit zu unterstützen, nutzen wir eine klassifikatorfreie Führung mit unabhängig einstellbaren Skalen für jedes Konditionierungssignal. Ctrl-Crash erreicht Spitzenleistungen in quantitativen Videoqualitätsmetriken (z. B. FVD und JEDi) sowie in qualitativen Messungen, die auf einer menschlichen Bewertung des physikalischen Realismus und der Videoqualität im Vergleich zu früheren Diffusions-basierten Methoden basieren.
English
Video diffusion techniques have advanced significantly in recent years;
however, they struggle to generate realistic imagery of car crashes due to the
scarcity of accident events in most driving datasets. Improving traffic safety
requires realistic and controllable accident simulations. To tackle the
problem, we propose Ctrl-Crash, a controllable car crash video generation model
that conditions on signals such as bounding boxes, crash types, and an initial
image frame. Our approach enables counterfactual scenario generation where
minor variations in input can lead to dramatically different crash outcomes. To
support fine-grained control at inference time, we leverage classifier-free
guidance with independently tunable scales for each conditioning signal.
Ctrl-Crash achieves state-of-the-art performance across quantitative video
quality metrics (e.g., FVD and JEDi) and qualitative measurements based on a
human-evaluation of physical realism and video quality compared to prior
diffusion-based methods.