Sintesi Audio per Video Lunghi con Collaborazione Multi-Agente
Long-Video Audio Synthesis with Multi-Agent Collaboration
March 13, 2025
Autori: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen
cs.AI
Abstract
La sintesi video-audio, che genera audio sincronizzato per contenuti visivi, migliora in modo significativo l'immersione dello spettatore e la coerenza narrativa nel cinema e nei media interattivi. Tuttavia, il doppiaggio video-audio per contenuti di lunga durata rimane una sfida irrisolta a causa di cambiamenti semantici dinamici, disallineamenti temporali e l'assenza di dataset dedicati. Mentre i metodi esistenti eccellono nei video brevi, falliscono in scenari lunghi (ad esempio, film) a causa di una sintesi frammentata e di una coerenza insufficiente tra le scene. Proponiamo LVAS-Agent, un innovativo framework multi-agente che emula i flussi di lavoro professionali del doppiaggio attraverso la specializzazione collaborativa dei ruoli. Il nostro approccio scompone la sintesi di video lunghi in quattro passaggi, tra cui la segmentazione delle scene, la generazione del copione, la progettazione del suono e la sintesi audio. Le innovazioni centrali includono un meccanismo di discussione-correzione per il perfezionamento delle scene/del copione e un ciclo di generazione-recupero per l'allineamento temporale-semantico. Per consentire una valutazione sistematica, introduciamo LVAS-Bench, il primo benchmark con 207 video lunghi curati professionalmente che coprono scenari diversificati. Gli esperimenti dimostrano un allineamento audio-visivo superiore rispetto ai metodi di base. Pagina del progetto: https://lvas-agent.github.io
English
Video-to-audio synthesis, which generates synchronized audio for visual
content, critically enhances viewer immersion and narrative coherence in film
and interactive media. However, video-to-audio dubbing for long-form content
remains an unsolved challenge due to dynamic semantic shifts, temporal
misalignment, and the absence of dedicated datasets. While existing methods
excel in short videos, they falter in long scenarios (e.g., movies) due to
fragmented synthesis and inadequate cross-scene consistency. We propose
LVAS-Agent, a novel multi-agent framework that emulates professional dubbing
workflows through collaborative role specialization. Our approach decomposes
long-video synthesis into four steps including scene segmentation, script
generation, sound design and audio synthesis. Central innovations include a
discussion-correction mechanism for scene/script refinement and a
generation-retrieval loop for temporal-semantic alignment. To enable systematic
evaluation, we introduce LVAS-Bench, the first benchmark with 207
professionally curated long videos spanning diverse scenarios. Experiments
demonstrate superior audio-visual alignment over baseline methods. Project
page: https://lvas-agent.github.io