Ctrl-Crash: Beheersbare diffusie voor realistische auto-ongelukken
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes
May 30, 2025
Auteurs: Anthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal
cs.AI
Samenvatting
Videodiffusietechnieken hebben de afgelopen jaren aanzienlijke vooruitgang geboekt;
ze hebben echter moeite om realistische beelden van auto-ongelukken te genereren vanwege
de schaarste aan ongevalsgebeurtenissen in de meeste rijdatasets. Het verbeteren van de
verkeersveiligheid vereist realistische en controleerbare ongevalssimulaties. Om dit probleem
aan te pakken, stellen we Ctrl-Crash voor, een model voor het genereren van controleerbare
auto-ongelukvideo's dat zich baseert op signalen zoals begrenzingsvakken, ongevalstypen en
een initieel beeldframe. Onze aanpak maakt het mogelijk om tegenfeitelijke scenario's te
genereren waarbij kleine variaties in de input kunnen leiden tot dramatisch verschillende
ongevalsuitkomsten. Om fijnmazige controle tijdens de inferentie mogelijk te maken, maken
we gebruik van classifier-free guidance met onafhankelijk instelbare schalen voor elk
conditioneringssignaal. Ctrl-Crash behaalt state-of-the-art prestaties op kwantitatieve
videokwaliteitsmetrieken (bijv. FVD en JEDi) en kwalitatieve metingen gebaseerd op een
menselijke evaluatie van fysieke realisme en videokwaliteit in vergelijking met eerdere
diffusiegebaseerde methoden.
English
Video diffusion techniques have advanced significantly in recent years;
however, they struggle to generate realistic imagery of car crashes due to the
scarcity of accident events in most driving datasets. Improving traffic safety
requires realistic and controllable accident simulations. To tackle the
problem, we propose Ctrl-Crash, a controllable car crash video generation model
that conditions on signals such as bounding boxes, crash types, and an initial
image frame. Our approach enables counterfactual scenario generation where
minor variations in input can lead to dramatically different crash outcomes. To
support fine-grained control at inference time, we leverage classifier-free
guidance with independently tunable scales for each conditioning signal.
Ctrl-Crash achieves state-of-the-art performance across quantitative video
quality metrics (e.g., FVD and JEDi) and qualitative measurements based on a
human-evaluation of physical realism and video quality compared to prior
diffusion-based methods.