Síntesis de Audio para Videos Largos con Colaboración Multiagente
Long-Video Audio Synthesis with Multi-Agent Collaboration
March 13, 2025
Autores: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen
cs.AI
Resumen
La síntesis de video a audio, que genera audio sincronizado para contenido visual, mejora críticamente la inmersión del espectador y la coherencia narrativa en el cine y los medios interactivos. Sin embargo, el doblaje de video a audio para contenido de larga duración sigue siendo un desafío sin resolver debido a los cambios semánticos dinámicos, la desalineación temporal y la ausencia de conjuntos de datos dedicados. Aunque los métodos existentes destacan en videos cortos, fallan en escenarios largos (por ejemplo, películas) debido a una síntesis fragmentada y una consistencia insuficiente entre escenas. Proponemos LVAS-Agent, un marco de trabajo multiagente novedoso que emula flujos de trabajo profesionales de doblaje mediante la especialización colaborativa de roles. Nuestro enfoque descompone la síntesis de videos largos en cuatro pasos, incluyendo segmentación de escenas, generación de guiones, diseño de sonido y síntesis de audio. Las innovaciones centrales incluyen un mecanismo de discusión-corrección para el refinamiento de escenas/guiones y un bucle de generación-recuperación para la alineación temporal-semántica. Para permitir una evaluación sistemática, presentamos LVAS-Bench, el primer punto de referencia con 207 videos largos curados profesionalmente que abarcan diversos escenarios. Los experimentos demuestran una alineación audio-visual superior en comparación con los métodos base. Página del proyecto: https://lvas-agent.github.io
English
Video-to-audio synthesis, which generates synchronized audio for visual
content, critically enhances viewer immersion and narrative coherence in film
and interactive media. However, video-to-audio dubbing for long-form content
remains an unsolved challenge due to dynamic semantic shifts, temporal
misalignment, and the absence of dedicated datasets. While existing methods
excel in short videos, they falter in long scenarios (e.g., movies) due to
fragmented synthesis and inadequate cross-scene consistency. We propose
LVAS-Agent, a novel multi-agent framework that emulates professional dubbing
workflows through collaborative role specialization. Our approach decomposes
long-video synthesis into four steps including scene segmentation, script
generation, sound design and audio synthesis. Central innovations include a
discussion-correction mechanism for scene/script refinement and a
generation-retrieval loop for temporal-semantic alignment. To enable systematic
evaluation, we introduce LVAS-Bench, the first benchmark with 207
professionally curated long videos spanning diverse scenarios. Experiments
demonstrate superior audio-visual alignment over baseline methods. Project
page: https://lvas-agent.github.ioSummary
AI-Generated Summary