ChatPaper.aiChatPaper

Ctrl-Crash: Diffusione Controllabile per Incidenti Automobilistici Realistici

Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes

May 30, 2025
Autori: Anthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal
cs.AI

Abstract

Le tecniche di diffusione video hanno fatto progressi significativi negli ultimi anni; tuttavia, faticano a generare immagini realistiche di incidenti automobilistici a causa della scarsità di eventi di questo tipo nella maggior parte dei dataset di guida. Migliorare la sicurezza stradale richiede simulazioni di incidenti realistiche e controllabili. Per affrontare il problema, proponiamo Ctrl-Crash, un modello di generazione video controllabile di incidenti automobilistici che si basa su segnali come bounding box, tipi di incidente e un'immagine iniziale. Il nostro approccio consente la generazione di scenari controfattuali in cui piccole variazioni negli input possono portare a esiti di incidenti drasticamente diversi. Per supportare un controllo fine al momento dell'inferenza, sfruttiamo la guida senza classificatore con scale regolabili in modo indipendente per ogni segnale di condizionamento. Ctrl-Crash raggiunge prestazioni all'avanguardia sia nelle metriche quantitative di qualità video (ad esempio, FVD e JEDi) che nelle misurazioni qualitative basate su una valutazione umana del realismo fisico e della qualità video rispetto ai precedenti metodi basati sulla diffusione.
English
Video diffusion techniques have advanced significantly in recent years; however, they struggle to generate realistic imagery of car crashes due to the scarcity of accident events in most driving datasets. Improving traffic safety requires realistic and controllable accident simulations. To tackle the problem, we propose Ctrl-Crash, a controllable car crash video generation model that conditions on signals such as bounding boxes, crash types, and an initial image frame. Our approach enables counterfactual scenario generation where minor variations in input can lead to dramatically different crash outcomes. To support fine-grained control at inference time, we leverage classifier-free guidance with independently tunable scales for each conditioning signal. Ctrl-Crash achieves state-of-the-art performance across quantitative video quality metrics (e.g., FVD and JEDi) and qualitative measurements based on a human-evaluation of physical realism and video quality compared to prior diffusion-based methods.
PDF113June 4, 2025