ChatPaper.aiChatPaper

Síntesis de Audio para Videos Largos con Colaboración Multiagente

Long-Video Audio Synthesis with Multi-Agent Collaboration

March 13, 2025
Autores: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen
cs.AI

Resumen

La síntesis de video a audio, que genera audio sincronizado para contenido visual, mejora críticamente la inmersión del espectador y la coherencia narrativa en el cine y los medios interactivos. Sin embargo, el doblaje de video a audio para contenido de larga duración sigue siendo un desafío sin resolver debido a los cambios semánticos dinámicos, la desalineación temporal y la ausencia de conjuntos de datos dedicados. Aunque los métodos existentes destacan en videos cortos, fallan en escenarios largos (por ejemplo, películas) debido a una síntesis fragmentada y una consistencia insuficiente entre escenas. Proponemos LVAS-Agent, un marco de trabajo multiagente novedoso que emula flujos de trabajo profesionales de doblaje mediante la especialización colaborativa de roles. Nuestro enfoque descompone la síntesis de videos largos en cuatro pasos, incluyendo segmentación de escenas, generación de guiones, diseño de sonido y síntesis de audio. Las innovaciones centrales incluyen un mecanismo de discusión-corrección para el refinamiento de escenas/guiones y un bucle de generación-recuperación para la alineación temporal-semántica. Para permitir una evaluación sistemática, presentamos LVAS-Bench, el primer punto de referencia con 207 videos largos curados profesionalmente que abarcan diversos escenarios. Los experimentos demuestran una alineación audio-visual superior en comparación con los métodos base. Página del proyecto: https://lvas-agent.github.io
English
Video-to-audio synthesis, which generates synchronized audio for visual content, critically enhances viewer immersion and narrative coherence in film and interactive media. However, video-to-audio dubbing for long-form content remains an unsolved challenge due to dynamic semantic shifts, temporal misalignment, and the absence of dedicated datasets. While existing methods excel in short videos, they falter in long scenarios (e.g., movies) due to fragmented synthesis and inadequate cross-scene consistency. We propose LVAS-Agent, a novel multi-agent framework that emulates professional dubbing workflows through collaborative role specialization. Our approach decomposes long-video synthesis into four steps including scene segmentation, script generation, sound design and audio synthesis. Central innovations include a discussion-correction mechanism for scene/script refinement and a generation-retrieval loop for temporal-semantic alignment. To enable systematic evaluation, we introduce LVAS-Bench, the first benchmark with 207 professionally curated long videos spanning diverse scenarios. Experiments demonstrate superior audio-visual alignment over baseline methods. Project page: https://lvas-agent.github.io

Summary

AI-Generated Summary

PDF93March 18, 2025