ChatPaper.aiChatPaper

L'audition facilite-t-elle la vision ? Étude du débruitage conjoint audio-vidéo pour la génération vidéo

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

December 2, 2025
papers.authors: Jianzong Wu, Hao Lian, Dachao Hao, Ye Tian, Qingyu Shi, Biaolong Chen, Hao Jiang
cs.AI

papers.abstract

Les systèmes génératifs audio-vidéo récents suggèrent que le couplage des modalités bénéficie non seulement à la synchronisation audio-vidéo, mais aussi à la modalité vidéo elle-même. Nous posons une question fondamentale : L'apprentissage conjoint par débruitage audio-vidéo améliore-t-il la génération vidéo, même lorsque seule la qualité vidéo nous importe ? Pour étudier cela, nous introduisons une architecture Audio-Video Full DiT (AVFullDiT) à paramètres efficaces qui exploite des modules texte-à-vidéo (T2V) et texte-à-audio (T2A) pré-entraînés pour un débruitage conjoint. Nous entraînons (i) un modèle T2AV avec AVFullDiT et (ii) une contrepartie T2V uniquement dans des conditions identiques. Nos résultats fournissent les premières preuves systématiques que le débruitage conjoint audio-vidéo peut offrir plus que la synchronisation. Nous observons des améliorations constantes sur des sous-ensembles difficiles comportant des mouvements importants et des contacts d'objets. Nous émettons l'hypothèse que la prédiction audio agit comme un signal privilégié, encourageant le modèle à internaliser les relations causales entre les événements visuels et leurs conséquences acoustiques (par exemple, les instants de collision influencent le son), ce qui régularise à son tour la dynamique vidéo. Nos résultats suggèrent que l'apprentissage conjoint multimodal est une approche prometteuse pour développer des modèles du monde plus performants et physiquement plus fondés. Le code et le jeu de données seront rendus publics.
English
Recent audio-video generative systems suggest that coupling modalities benefits not only audio-video synchrony but also the video modality itself. We pose a fundamental question: Does audio-video joint denoising training improve video generation, even when we only care about video quality? To study this, we introduce a parameter-efficient Audio-Video Full DiT (AVFullDiT) architecture that leverages pre-trained text-to-video (T2V) and text-to-audio (T2A) modules for joint denoising. We train (i) a T2AV model with AVFullDiT and (ii) a T2V-only counterpart under identical settings. Our results provide the first systematic evidence that audio-video joint denoising can deliver more than synchrony. We observe consistent improvements on challenging subsets featuring large and object contact motions. We hypothesize that predicting audio acts as a privileged signal, encouraging the model to internalize causal relationships between visual events and their acoustic consequences (e.g., collision times impact sound), which in turn regularizes video dynamics. Our findings suggest that cross-modal co-training is a promising approach to developing stronger, more physically grounded world models. Code and dataset will be made publicly available.
PDF101December 4, 2025