ChatPaper.aiChatPaper

Помогает ли слух зрению? Исследование совместного аудио-видео шумоподавления для генерации видео

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

December 2, 2025
Авторы: Jianzong Wu, Hao Lian, Dachao Hao, Ye Tian, Qingyu Shi, Biaolong Chen, Hao Jiang
cs.AI

Аннотация

Современные аудиовизуальные генеративные системы показывают, что совместная обработка модальностей улучшает не только синхронность аудио и видео, но и саму видеомодальность. Мы ставим фундаментальный вопрос: улучшает ли совместное аудиовизуальное обучение с шумоподавлением генерацию видео, даже когда нас интересует исключительно качество видео? Для исследования этого мы представляем параметрически эффективную архитектуру Audio-Video Full DiT (AVFullDiT), которая использует предобученные модули текст-к-видео (T2V) и текст-к-аудио (T2A) для совместного шумоподавления. Мы обучаем (i) модель T2AV с AVFullDiT и (ii) исключительно видеоцентричный аналог (T2V-only) в идентичных условиях. Наши результаты впервые систематически демонстрируют, что совместное аудиовизуальное шумоподавление дает преимущества, выходящие за рамки синхронизации. Мы наблюдаем устойчивое улучшение на сложных подмножествах данных с крупными движениями и контактами объектов. Мы выдвигаем гипотезу, что прогнозирование аудио выступает в роли привилегированного сигнала, побуждая модель усваивать причинно-следственные связи между визуальными событиями и их акустическими последствиями (например, влияние времени столкновения на звук), что, в свою очередь, регуляризует видео-динамику. Наши выводы свидетельствуют, что кросс-модальное совместное обучение является перспективным подходом для создания более мощных и физически обоснованных моделей мира. Код и набор данных будут опубликованы в открытом доступе.
English
Recent audio-video generative systems suggest that coupling modalities benefits not only audio-video synchrony but also the video modality itself. We pose a fundamental question: Does audio-video joint denoising training improve video generation, even when we only care about video quality? To study this, we introduce a parameter-efficient Audio-Video Full DiT (AVFullDiT) architecture that leverages pre-trained text-to-video (T2V) and text-to-audio (T2A) modules for joint denoising. We train (i) a T2AV model with AVFullDiT and (ii) a T2V-only counterpart under identical settings. Our results provide the first systematic evidence that audio-video joint denoising can deliver more than synchrony. We observe consistent improvements on challenging subsets featuring large and object contact motions. We hypothesize that predicting audio acts as a privileged signal, encouraging the model to internalize causal relationships between visual events and their acoustic consequences (e.g., collision times impact sound), which in turn regularizes video dynamics. Our findings suggest that cross-modal co-training is a promising approach to developing stronger, more physically grounded world models. Code and dataset will be made publicly available.
PDF101December 4, 2025