ChatPaper.aiChatPaper

L'udito aiuta la vista? Uno studio sulla rimozione congiunta del rumore audio-video per la generazione di video

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

December 2, 2025
Autori: Jianzong Wu, Hao Lian, Dachao Hao, Ye Tian, Qingyu Shi, Biaolong Chen, Hao Jiang
cs.AI

Abstract

I recenti sistemi generativi audio-video suggeriscono che l'accoppiamento delle modalità avvantaggia non solo la sincronia audio-video, ma anche la modalità video stessa. Ci poniamo una domanda fondamentale: l'addestramento congiunto di denoising audio-video migliora la generazione video, anche quando siamo interessati esclusivamente alla qualità video? Per studiarlo, introduciamo un'architettura Audio-Video Full DiT (AVFullDiT) efficiente in parametri che sfrutta moduli pre-addestrati text-to-video (T2V) e text-to-audio (T2A) per il denoising congiunto. Addestriamo (i) un modello T2AV con AVFullDiT e (ii) una controparte T2V-only in condizioni identiche. I nostri risultati forniscono la prima evidenza sistematica che il denoising congiunto audio-video può offrire più della semplice sincronia. Osserviamo miglioramenti consistenti su sottoinsiemi complessi caratterizzati da movimenti ampi e da contatto tra oggetti. Ipotesi che la previsione dell'audio agisca come un segnale privilegiato, incoraggiando il modello a internalizzare relazioni causali tra eventi visivi e le loro conseguenze acustiche (ad esempio, i tempi di collisione influenzano il suono), il che a sua volta regolarizza le dinamiche video. I nostri risultati suggeriscono che il co-addestramento cross-modale è un approccio promettente per sviluppare modelli del mondo più robusti e fisicamente fondati. Codice e dataset saranno resi pubblicamente disponibili.
English
Recent audio-video generative systems suggest that coupling modalities benefits not only audio-video synchrony but also the video modality itself. We pose a fundamental question: Does audio-video joint denoising training improve video generation, even when we only care about video quality? To study this, we introduce a parameter-efficient Audio-Video Full DiT (AVFullDiT) architecture that leverages pre-trained text-to-video (T2V) and text-to-audio (T2A) modules for joint denoising. We train (i) a T2AV model with AVFullDiT and (ii) a T2V-only counterpart under identical settings. Our results provide the first systematic evidence that audio-video joint denoising can deliver more than synchrony. We observe consistent improvements on challenging subsets featuring large and object contact motions. We hypothesize that predicting audio acts as a privileged signal, encouraging the model to internalize causal relationships between visual events and their acoustic consequences (e.g., collision times impact sound), which in turn regularizes video dynamics. Our findings suggest that cross-modal co-training is a promising approach to developing stronger, more physically grounded world models. Code and dataset will be made publicly available.
PDF101December 4, 2025