Ctrl-Crash: Управляемая диффузия для реалистичного моделирования автомобильных аварий
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes
May 30, 2025
Авторы: Anthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal
cs.AI
Аннотация
Методы видео-диффузии значительно продвинулись в последние годы; однако они сталкиваются с трудностями при генерации реалистичных изображений автомобильных аварий из-за недостатка данных о подобных инцидентах в большинстве наборов данных, связанных с вождением. Улучшение безопасности дорожного движения требует реалистичных и управляемых симуляций аварий. Для решения этой проблемы мы предлагаем Ctrl-Crash — управляемую модель генерации видео автомобильных аварий, которая учитывает такие сигналы, как ограничивающие рамки, типы столкновений и начальный кадр изображения. Наш подход позволяет генерировать контрфактуальные сценарии, где незначительные изменения входных данных могут привести к кардинально различным исходам аварий. Для обеспечения детального управления на этапе вывода мы используем метод классификатор-фри гида с независимо настраиваемыми масштабами для каждого сигнала. Ctrl-Crash демонстрирует наилучшие результаты по количественным метрикам качества видео (например, FVD и JEDi) и качественным оценкам, основанным на экспертной оценке физической реалистичности и качества видео, по сравнению с предыдущими методами, основанными на диффузии.
English
Video diffusion techniques have advanced significantly in recent years;
however, they struggle to generate realistic imagery of car crashes due to the
scarcity of accident events in most driving datasets. Improving traffic safety
requires realistic and controllable accident simulations. To tackle the
problem, we propose Ctrl-Crash, a controllable car crash video generation model
that conditions on signals such as bounding boxes, crash types, and an initial
image frame. Our approach enables counterfactual scenario generation where
minor variations in input can lead to dramatically different crash outcomes. To
support fine-grained control at inference time, we leverage classifier-free
guidance with independently tunable scales for each conditioning signal.
Ctrl-Crash achieves state-of-the-art performance across quantitative video
quality metrics (e.g., FVD and JEDi) and qualitative measurements based on a
human-evaluation of physical realism and video quality compared to prior
diffusion-based methods.