Ctrl-Crash: Difusión Controlable para Colisiones de Automóviles Realistas
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes
May 30, 2025
Autores: Anthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal
cs.AI
Resumen
Las técnicas de difusión de video han avanzado significativamente en los últimos años; sin embargo, enfrentan dificultades para generar imágenes realistas de accidentes automovilísticos debido a la escasez de eventos de este tipo en la mayoría de los conjuntos de datos de conducción. Mejorar la seguridad vial requiere simulaciones de accidentes realistas y controlables. Para abordar este problema, proponemos Ctrl-Crash, un modelo de generación de videos de accidentes automovilísticos controlable que se condiciona mediante señales como cuadros delimitadores, tipos de colisión y un fotograma inicial. Nuestro enfoque permite la generación de escenarios contrafactuales, donde pequeñas variaciones en la entrada pueden dar lugar a resultados de accidentes drásticamente diferentes. Para permitir un control detallado durante la inferencia, utilizamos guía libre de clasificadores con escalas ajustables de manera independiente para cada señal de condicionamiento. Ctrl-Crash logra un rendimiento de vanguardia en métricas cuantitativas de calidad de video (por ejemplo, FVD y JEDi) y en evaluaciones cualitativas basadas en la percepción humana del realismo físico y la calidad del video, en comparación con métodos previos basados en difusión.
English
Video diffusion techniques have advanced significantly in recent years;
however, they struggle to generate realistic imagery of car crashes due to the
scarcity of accident events in most driving datasets. Improving traffic safety
requires realistic and controllable accident simulations. To tackle the
problem, we propose Ctrl-Crash, a controllable car crash video generation model
that conditions on signals such as bounding boxes, crash types, and an initial
image frame. Our approach enables counterfactual scenario generation where
minor variations in input can lead to dramatically different crash outcomes. To
support fine-grained control at inference time, we leverage classifier-free
guidance with independently tunable scales for each conditioning signal.
Ctrl-Crash achieves state-of-the-art performance across quantitative video
quality metrics (e.g., FVD and JEDi) and qualitative measurements based on a
human-evaluation of physical realism and video quality compared to prior
diffusion-based methods.