O Audição Auxilia a Visão? Investigação sobre a Desnudificação Conjunta Áudio-Vídeo na Geração de Vídeo

Resumo

Sistemas generativos recentes de áudio e vídeo sugerem que o acoplamento de modalidades beneficia não apenas a sincronia áudio-vídeo, mas também a própria modalidade de vídeo. Colocamos uma questão fundamental: O treinamento conjunto de eliminação de ruído áudio-vídeo melhora a geração de vídeo, mesmo quando nos importamos apenas com a qualidade do vídeo? Para estudar isso, introduzimos uma arquitetura eficiente em parâmetros Audio-Video Full DiT (AVFullDiT) que aproveita módulos pré-treinados de texto-para-vídeo (T2V) e texto-para-áudio (T2A) para eliminação de ruído conjunta. Treinamos (i) um modelo T2AV com AVFullDiT e (ii) uma contraparte apenas T2V sob configurações idênticas. Nossos resultados fornecem a primeira evidência sistemática de que a eliminação de ruído conjunta áudio-vídeo pode oferecer mais do que sincronia. Observamos melhorias consistentes em subconjuntos desafiadores que apresentam movimentos de contato de objetos grandes. Nossa hipótese é que prever áudio atua como um sinal privilegiado, incentivando o modelo a internalizar relações causais entre eventos visuais e suas consequências acústicas (por exemplo, os tempos de colisão impactam o som), o que, por sua vez, regulariza a dinâmica do vídeo. Nossas descobertas sugerem que o co-treinamento cross-modal é uma abordagem promissora para desenvolver modelos de mundo mais fortes e fisicamente fundamentados. O código e o conjunto de dados serão disponibilizados publicamente.

English

Recent audio-video generative systems suggest that coupling modalities benefits not only audio-video synchrony but also the video modality itself. We pose a fundamental question: Does audio-video joint denoising training improve video generation, even when we only care about video quality? To study this, we introduce a parameter-efficient Audio-Video Full DiT (AVFullDiT) architecture that leverages pre-trained text-to-video (T2V) and text-to-audio (T2A) modules for joint denoising. We train (i) a T2AV model with AVFullDiT and (ii) a T2V-only counterpart under identical settings. Our results provide the first systematic evidence that audio-video joint denoising can deliver more than synchrony. We observe consistent improvements on challenging subsets featuring large and object contact motions. We hypothesize that predicting audio acts as a privileged signal, encouraging the model to internalize causal relationships between visual events and their acoustic consequences (e.g., collision times impact sound), which in turn regularizes video dynamics. Our findings suggest that cross-modal co-training is a promising approach to developing stronger, more physically grounded world models. Code and dataset will be made publicly available.

O Audição Auxilia a Visão? Investigação sobre a Desnudificação Conjunta Áudio-Vídeo na Geração de Vídeo

Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

Resumo

Support