Ctrl-Crash: Beheersbare diffusie voor realistische auto-ongelukken

Samenvatting

Videodiffusietechnieken hebben de afgelopen jaren aanzienlijke vooruitgang geboekt; ze hebben echter moeite om realistische beelden van auto-ongelukken te genereren vanwege de schaarste aan ongevalsgebeurtenissen in de meeste rijdatasets. Het verbeteren van de verkeersveiligheid vereist realistische en controleerbare ongevalssimulaties. Om dit probleem aan te pakken, stellen we Ctrl-Crash voor, een model voor het genereren van controleerbare auto-ongelukvideo's dat zich baseert op signalen zoals begrenzingsvakken, ongevalstypen en een initieel beeldframe. Onze aanpak maakt het mogelijk om tegenfeitelijke scenario's te genereren waarbij kleine variaties in de input kunnen leiden tot dramatisch verschillende ongevalsuitkomsten. Om fijnmazige controle tijdens de inferentie mogelijk te maken, maken we gebruik van classifier-free guidance met onafhankelijk instelbare schalen voor elk conditioneringssignaal. Ctrl-Crash behaalt state-of-the-art prestaties op kwantitatieve videokwaliteitsmetrieken (bijv. FVD en JEDi) en kwalitatieve metingen gebaseerd op een menselijke evaluatie van fysieke realisme en videokwaliteit in vergelijking met eerdere diffusiegebaseerde methoden.

English

Video diffusion techniques have advanced significantly in recent years; however, they struggle to generate realistic imagery of car crashes due to the scarcity of accident events in most driving datasets. Improving traffic safety requires realistic and controllable accident simulations. To tackle the problem, we propose Ctrl-Crash, a controllable car crash video generation model that conditions on signals such as bounding boxes, crash types, and an initial image frame. Our approach enables counterfactual scenario generation where minor variations in input can lead to dramatically different crash outcomes. To support fine-grained control at inference time, we leverage classifier-free guidance with independently tunable scales for each conditioning signal. Ctrl-Crash achieves state-of-the-art performance across quantitative video quality metrics (e.g., FVD and JEDi) and qualitative measurements based on a human-evaluation of physical realism and video quality compared to prior diffusion-based methods.

Ctrl-Crash: Beheersbare diffusie voor realistische auto-ongelukken

Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes

Samenvatting

Support