ChatPaper.aiChatPaper

Ctrl-Crash: Difusão Controlável para Colisões de Carros Realistas

Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes

May 30, 2025
Autores: Anthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal
cs.AI

Resumo

As técnicas de difusão de vídeo avançaram significativamente nos últimos anos; no entanto, elas enfrentam dificuldades para gerar imagens realistas de acidentes de carro devido à escassez de eventos de colisão na maioria dos conjuntos de dados de direção. Melhorar a segurança no trânsito exige simulações de acidentes realistas e controláveis. Para abordar esse problema, propomos o Ctrl-Crash, um modelo de geração de vídeos de acidentes de carro controlável que se baseia em sinais como caixas delimitadoras, tipos de colisão e um quadro inicial de imagem. Nossa abordagem permite a geração de cenários contrafactuais, onde pequenas variações na entrada podem levar a resultados de colisão drasticamente diferentes. Para suportar um controle refinado durante a inferência, utilizamos orientação livre de classificador com escalas ajustáveis independentemente para cada sinal de condicionamento. O Ctrl-Crash alcança desempenho de ponta em métricas quantitativas de qualidade de vídeo (por exemplo, FVD e JEDi) e em medições qualitativas baseadas em avaliação humana de realismo físico e qualidade de vídeo, em comparação com métodos anteriores baseados em difusão.
English
Video diffusion techniques have advanced significantly in recent years; however, they struggle to generate realistic imagery of car crashes due to the scarcity of accident events in most driving datasets. Improving traffic safety requires realistic and controllable accident simulations. To tackle the problem, we propose Ctrl-Crash, a controllable car crash video generation model that conditions on signals such as bounding boxes, crash types, and an initial image frame. Our approach enables counterfactual scenario generation where minor variations in input can lead to dramatically different crash outcomes. To support fine-grained control at inference time, we leverage classifier-free guidance with independently tunable scales for each conditioning signal. Ctrl-Crash achieves state-of-the-art performance across quantitative video quality metrics (e.g., FVD and JEDi) and qualitative measurements based on a human-evaluation of physical realism and video quality compared to prior diffusion-based methods.
PDF113June 4, 2025