ChatPaper.aiChatPaper

Helpt gehoor bij het zien? Onderzoek naar audio-video gezamenlijke ruisonderdrukking voor videogeneratie

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

December 2, 2025
Auteurs: Jianzong Wu, Hao Lian, Dachao Hao, Ye Tian, Qingyu Shi, Biaolong Chen, Hao Jiang
cs.AI

Samenvatting

Recente audio-videogeneratieve systemen suggereren dat de koppeling van modaliteiten niet alleen ten goede komt aan audio-videosynchronisatie, maar ook aan de videomodaliteit zelf. Wij stellen een fundamentele vraag: Verbetert gezamenlijke audio-video denoisingtraining de videogeneratie, zelfs wanneer we alleen in videokwaliteit geïnteresseerd zijn? Om dit te onderzoeken, introduceren we een parameter-efficiënte Audio-Video Full DiT (AVFullDiT)-architectuur die gebruikmaakt van vooraf getrainde tekst-naar-video (T2V) en tekst-naar-audio (T2A) modules voor gezamenlijke denoising. We trainen (i) een T2AV-model met AVFullDiT en (ii) een uitsluitend T2V-equivalent onder identieke omstandigheden. Onze resultaten leveren het eerste systematische bewijs dat gezamenlijke audio-video denoising meer kan opleveren dan alleen synchronisatie. We observeren consistente verbeteringen op uitdagende subsets met grote bewegingen en objectcontact. Wij veronderstellen dat het voorspellen van audio fungeert als een geprivilegieerd signaal, dat het model aanmoedigt om causale relaties tussen visuele gebeurtenissen en hun akoestische gevolgen te internaliseren (bijvoorbeeld dat botsingstijden het geluid beïnvloeden), wat op zijn beurt de videodynamiek regulariseert. Onze bevindingen suggereren dat cross-modale cotraining een veelbelovende aanpak is voor de ontwikkeling van sterkere, meer fysiek gefundeerde wereldmodellen. Code en dataset zullen openbaar worden gemaakt.
English
Recent audio-video generative systems suggest that coupling modalities benefits not only audio-video synchrony but also the video modality itself. We pose a fundamental question: Does audio-video joint denoising training improve video generation, even when we only care about video quality? To study this, we introduce a parameter-efficient Audio-Video Full DiT (AVFullDiT) architecture that leverages pre-trained text-to-video (T2V) and text-to-audio (T2A) modules for joint denoising. We train (i) a T2AV model with AVFullDiT and (ii) a T2V-only counterpart under identical settings. Our results provide the first systematic evidence that audio-video joint denoising can deliver more than synchrony. We observe consistent improvements on challenging subsets featuring large and object contact motions. We hypothesize that predicting audio acts as a privileged signal, encouraging the model to internalize causal relationships between visual events and their acoustic consequences (e.g., collision times impact sound), which in turn regularizes video dynamics. Our findings suggest that cross-modal co-training is a promising approach to developing stronger, more physically grounded world models. Code and dataset will be made publicly available.
PDF101December 4, 2025