¿Ayuda el oído a la vista? Investigación sobre la eliminación conjunta de ruido audio-video para la generación de video
Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation
December 2, 2025
Autores: Jianzong Wu, Hao Lian, Dachao Hao, Ye Tian, Qingyu Shi, Biaolong Chen, Hao Jiang
cs.AI
Resumen
Los sistemas generativos recientes de audio y vídeo sugieren que el acoplamiento de modalidades beneficia no solo la sincronía audiovisual, sino también la propia modalidad de vídeo. Planteamos una pregunta fundamental: ¿Mejora el entrenamiento conjunto de eliminación de ruido audio-vídeo la generación de vídeo, incluso cuando solo nos importa la calidad del vídeo? Para estudiarlo, presentamos una arquitectura eficiente en parámetros, Audio-Video Full DiT (AVFullDiT), que aprovecha módulos preentrenados de texto a vídeo (T2V) y texto a audio (T2A) para la eliminación de ruido conjunta. Entrenamos (i) un modelo T2AV con AVFullDiT y (ii) una contraparte exclusiva de T2V bajo configuraciones idénticas. Nuestros resultados proporcionan la primera evidencia sistemática de que la eliminación de ruido conjunta audio-vídeo puede ofrecer más que sincronía. Observamos mejoras consistentes en subconjuntos desafiantes que presentan movimientos de contacto de objetos y grandes movimientos. Nuestra hipótesis es que predecir el audio actúa como una señal privilegiada, incentivando al modelo a internalizar relaciones causales entre eventos visuales y sus consecuencias acústicas (por ejemplo, los tiempos de colisión impactan en el sonido), lo que a su vez regulariza la dinámica del vídeo. Nuestros hallazgos sugieren que el entrenamiento conjunto multimodal es un enfoque prometedor para desarrollar modelos del mundo más sólidos y fundamentados físicamente. El código y el conjunto de datos se pondrán a disposición pública.
English
Recent audio-video generative systems suggest that coupling modalities benefits not only audio-video synchrony but also the video modality itself. We pose a fundamental question: Does audio-video joint denoising training improve video generation, even when we only care about video quality? To study this, we introduce a parameter-efficient Audio-Video Full DiT (AVFullDiT) architecture that leverages pre-trained text-to-video (T2V) and text-to-audio (T2A) modules for joint denoising. We train (i) a T2AV model with AVFullDiT and (ii) a T2V-only counterpart under identical settings. Our results provide the first systematic evidence that audio-video joint denoising can deliver more than synchrony. We observe consistent improvements on challenging subsets featuring large and object contact motions. We hypothesize that predicting audio acts as a privileged signal, encouraging the model to internalize causal relationships between visual events and their acoustic consequences (e.g., collision times impact sound), which in turn regularizes video dynamics. Our findings suggest that cross-modal co-training is a promising approach to developing stronger, more physically grounded world models. Code and dataset will be made publicly available.