Ctrl-Crash : Diffusion contrôlée pour des accidents de voiture réalistes
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes
May 30, 2025
Auteurs: Anthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal
cs.AI
Résumé
Les techniques de diffusion vidéo ont considérablement progressé ces dernières années ; cependant, elles peinent à générer des images réalistes d'accidents de voiture en raison de la rareté des événements accidentels dans la plupart des ensembles de données de conduite. L'amélioration de la sécurité routière nécessite des simulations d'accidents réalistes et contrôlables. Pour résoudre ce problème, nous proposons Ctrl-Crash, un modèle de génération de vidéos d'accidents de voiture contrôlable qui s'appuie sur des signaux tels que les boîtes englobantes, les types d'accidents et une image initiale. Notre approche permet la génération de scénarios contrefactuels où de légères variations dans les entrées peuvent conduire à des résultats d'accidents radicalement différents. Pour permettre un contrôle précis lors de l'inférence, nous utilisons une guidance sans classifieur avec des échelles réglables indépendamment pour chaque signal de conditionnement. Ctrl-Crash atteint des performances de pointe sur les métriques quantitatives de qualité vidéo (par exemple, FVD et JEDi) et sur les évaluations qualitatives basées sur le jugement humain concernant le réalisme physique et la qualité vidéo, comparé aux méthodes précédentes basées sur la diffusion.
English
Video diffusion techniques have advanced significantly in recent years;
however, they struggle to generate realistic imagery of car crashes due to the
scarcity of accident events in most driving datasets. Improving traffic safety
requires realistic and controllable accident simulations. To tackle the
problem, we propose Ctrl-Crash, a controllable car crash video generation model
that conditions on signals such as bounding boxes, crash types, and an initial
image frame. Our approach enables counterfactual scenario generation where
minor variations in input can lead to dramatically different crash outcomes. To
support fine-grained control at inference time, we leverage classifier-free
guidance with independently tunable scales for each conditioning signal.
Ctrl-Crash achieves state-of-the-art performance across quantitative video
quality metrics (e.g., FVD and JEDi) and qualitative measurements based on a
human-evaluation of physical realism and video quality compared to prior
diffusion-based methods.