청각이 시각을 돕는가? 비디오 생성을 위한 오디오-비디오 결합 잡음 제거 기법 연구
Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation
December 2, 2025
저자: Jianzong Wu, Hao Lian, Dachao Hao, Ye Tian, Qingyu Shi, Biaolong Chen, Hao Jiang
cs.AI
초록
최근 오디오-비디오 생성 시스템들은 양식 간 결합이 오디오-비디오 동기화뿐만 아니라 비디오 양식 자체에도 이점을 준다는 것을 시사합니다. 우리는 근본적인 질문을 제기합니다: 비디오 품질만 중요하게 여기는 경우에도 오디오-비디오 공동 디노이징 훈련이 비디오 생성을 향상시킬 수 있을까요? 이를 연구하기 위해 사전 훈련된 텍스트-비디오(T2V) 및 텍스트-오디오(T2A) 모듈을 공동 디노이징에 활용하는 매개변수 효율적인 Audio-Video Full DiT(AVFullDiT) 아키텍처를 도입합니다. 우리는 (i) AVFullDiT를 사용한 T2AV 모델과 (ii) 동일한 설정 하에서의 T2V 전용 대조 모델을 훈련합니다. 우리의 결과는 오디오-비디오 공동 디노이징이 동기화 이상의 효과를 제공할 수 있다는 첫 번째 체계적인 증거를 제시합니다. 대규모 및 객체 접촉 운동을 특징으로 하는 어려운 하위 집합에서 일관된 개선이 관찰됩니다. 우리는 오디오 예측이 특권 신호로 작용하여 모델이 시각적 사건과 그 음향적 결과(예: 충돌 타이밍이 소리에 미치는 영향) 사이의 인과 관계를 내재화하도록 유도하며, 이는 결국 비디오 역학을 규제한다고 가정합니다. 우리의 연구 결과는 교차 양식 공동 훈련이 더 강력하고 물리적으로 근거 있는 세계 모델을 개발하기 위한 유망한 접근법임을 시사합니다. 코드와 데이터셋은 공개될 예정입니다.
English
Recent audio-video generative systems suggest that coupling modalities benefits not only audio-video synchrony but also the video modality itself. We pose a fundamental question: Does audio-video joint denoising training improve video generation, even when we only care about video quality? To study this, we introduce a parameter-efficient Audio-Video Full DiT (AVFullDiT) architecture that leverages pre-trained text-to-video (T2V) and text-to-audio (T2A) modules for joint denoising. We train (i) a T2AV model with AVFullDiT and (ii) a T2V-only counterpart under identical settings. Our results provide the first systematic evidence that audio-video joint denoising can deliver more than synchrony. We observe consistent improvements on challenging subsets featuring large and object contact motions. We hypothesize that predicting audio acts as a privileged signal, encouraging the model to internalize causal relationships between visual events and their acoustic consequences (e.g., collision times impact sound), which in turn regularizes video dynamics. Our findings suggest that cross-modal co-training is a promising approach to developing stronger, more physically grounded world models. Code and dataset will be made publicly available.