聴覚は視覚を助けるか?映像生成における音声・映像共同ノイズ除去の検討
Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation
December 2, 2025
著者: Jianzong Wu, Hao Lian, Dachao Hao, Ye Tian, Qingyu Shi, Biaolong Chen, Hao Jiang
cs.AI
要旨
近年のオーディオビデオ生成システムは、マルチモーダル統合が音声と映像の同期性だけでなく、映像モダリティそのものにも有益であることを示唆している。本研究では、映像品質のみを重視する場合であっても、音声と映像の共同デノイジング訓練が映像生成を改善するかという基礎的な問いを提起する。これを検証するため、事前学習済みのテキストtoビデオ(T2V)およびテキストtoオーディオ(T2A)モジュールを共同デノイジングに活用する、パラメータ効率の高いAudio-Video Full DiT(AVFullDiT)アーキテクチャを提案する。同一設定下で、(i)AVFullDiTを用いたT2AVモデルと(ii)T2Vのみのモデルを学習した。結果として、音声映像共同デノイジングが同期性以上の効果をもたらすという初の体系的証拠を得た。大規模な物体運動や物体接触を特徴とする困難なサブセットにおいて、一貫した改善が観察された。我々は、音声の予測が特権信号として機能し、視覚的イベントとその音響的結果(例:衝突タイミングが音に与える影響)の因果関係をモデルに内在化させることで、映像ダイナミクスを正則化すると仮説を立てる。本発見は、クロスモーダル共同学習が、より強力で物理的に接地された世界モデルを構築する有望なアプローチであることを示唆する。コードとデータセットは公開予定である。
English
Recent audio-video generative systems suggest that coupling modalities benefits not only audio-video synchrony but also the video modality itself. We pose a fundamental question: Does audio-video joint denoising training improve video generation, even when we only care about video quality? To study this, we introduce a parameter-efficient Audio-Video Full DiT (AVFullDiT) architecture that leverages pre-trained text-to-video (T2V) and text-to-audio (T2A) modules for joint denoising. We train (i) a T2AV model with AVFullDiT and (ii) a T2V-only counterpart under identical settings. Our results provide the first systematic evidence that audio-video joint denoising can deliver more than synchrony. We observe consistent improvements on challenging subsets featuring large and object contact motions. We hypothesize that predicting audio acts as a privileged signal, encouraging the model to internalize causal relationships between visual events and their acoustic consequences (e.g., collision times impact sound), which in turn regularizes video dynamics. Our findings suggest that cross-modal co-training is a promising approach to developing stronger, more physically grounded world models. Code and dataset will be made publicly available.