ChatPaper.aiChatPaper

Hilft Hören beim Sehen? Untersuchung der Audio-Video-Joint-Denoisierung für die Videogenerierung

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

December 2, 2025
papers.authors: Jianzong Wu, Hao Lian, Dachao Hao, Ye Tian, Qingyu Shi, Biaolong Chen, Hao Jiang
cs.AI

papers.abstract

Aktuelle Audio-Video-Generierungssysteme deuten darauf hin, dass die Kopplung von Modalitäten nicht nur der Audio-Video-Synchronisation zugutekommt, sondern auch der Videomodalität selbst. Wir stellen eine grundlegende Frage: Verbessert das gemeinsame Audio-Video-Entrauschtraining die Videogenerierung, selbst wenn uns nur die Videoqualität wichtig ist? Um dies zu untersuchen, führen wir eine parameter-effiziente Audio-Video-Full-DiT-Architektur (AVFullDiT) ein, die vortrainierte Text-zu-Video (T2V)- und Text-zu-Audio (T2A)-Module für gemeinsames Entrauschen nutzt. Wir trainieren (i) ein T2AV-Modell mit AVFullDiT und (ii) ein reines T2V-Gegenstück unter identischen Bedingungen. Unsere Ergebnisse liefern den ersten systematischen Beleg dafür, dass gemeinsames Audio-Video-Entrauschen mehr als nur Synchronisation bewirken kann. Wir beobachten konsistente Verbesserungen bei anspruchsvollen Teilmengen mit großen Objektbewegungen und Objektkontakten. Wir stellen die Hypothese auf, dass die Vorhersage von Audio als privilegiertes Signal wirkt, das das Modell dazu anregt, kausale Beziehungen zwischen visuellen Ereignissen und ihren akustischen Konsequenzen (z.B. wie Kollisionszeitpunkte den Klang beeinflussen) zu internalisieren, was wiederum die Videodynamik regularisiert. Unsere Ergebnisse legen nahe, dass cross-modales Co-Training ein vielversprechender Ansatz ist, um stärkere, physikalisch fundiertere Weltmodelle zu entwickeln. Code und Datensatz werden öffentlich zugänglich gemacht.
English
Recent audio-video generative systems suggest that coupling modalities benefits not only audio-video synchrony but also the video modality itself. We pose a fundamental question: Does audio-video joint denoising training improve video generation, even when we only care about video quality? To study this, we introduce a parameter-efficient Audio-Video Full DiT (AVFullDiT) architecture that leverages pre-trained text-to-video (T2V) and text-to-audio (T2A) modules for joint denoising. We train (i) a T2AV model with AVFullDiT and (ii) a T2V-only counterpart under identical settings. Our results provide the first systematic evidence that audio-video joint denoising can deliver more than synchrony. We observe consistent improvements on challenging subsets featuring large and object contact motions. We hypothesize that predicting audio acts as a privileged signal, encouraging the model to internalize causal relationships between visual events and their acoustic consequences (e.g., collision times impact sound), which in turn regularizes video dynamics. Our findings suggest that cross-modal co-training is a promising approach to developing stronger, more physically grounded world models. Code and dataset will be made publicly available.
PDF101December 4, 2025