Synthèse audio pour vidéos longues avec collaboration multi-agents
Long-Video Audio Synthesis with Multi-Agent Collaboration
March 13, 2025
Auteurs: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen
cs.AI
Résumé
La synthèse vidéo-vers-audio, qui génère un audio synchronisé pour du contenu visuel, améliore de manière cruciale l'immersion du spectateur et la cohérence narrative dans les films et les médias interactifs. Cependant, le doublage vidéo-vers-audio pour des contenus de longue durée reste un défi non résolu en raison des changements sémantiques dynamiques, des désalignements temporels et de l'absence de jeux de données dédiés. Bien que les méthodes existantes excellent dans les vidéos courtes, elles échouent dans les scénarios longs (par exemple, les films) en raison d'une synthèse fragmentée et d'une cohérence inter-scènes insuffisante. Nous proposons LVAS-Agent, un nouveau cadre multi-agent qui reproduit les workflows professionnels de doublage grâce à une spécialisation collaborative des rôles. Notre approche décompose la synthèse de vidéos longues en quatre étapes, incluant la segmentation de scènes, la génération de scripts, la conception sonore et la synthèse audio. Les innovations centrales incluent un mécanisme de discussion-correction pour l'affinement des scènes/scripts et une boucle de génération-récupération pour l'alignement temporel-sémantique. Pour permettre une évaluation systématique, nous introduisons LVAS-Bench, le premier benchmark comprenant 207 vidéos longues professionnellement sélectionnées couvrant divers scénarios. Les expériences démontrent un alignement audio-visuel supérieur par rapport aux méthodes de référence. Page du projet : https://lvas-agent.github.io
English
Video-to-audio synthesis, which generates synchronized audio for visual
content, critically enhances viewer immersion and narrative coherence in film
and interactive media. However, video-to-audio dubbing for long-form content
remains an unsolved challenge due to dynamic semantic shifts, temporal
misalignment, and the absence of dedicated datasets. While existing methods
excel in short videos, they falter in long scenarios (e.g., movies) due to
fragmented synthesis and inadequate cross-scene consistency. We propose
LVAS-Agent, a novel multi-agent framework that emulates professional dubbing
workflows through collaborative role specialization. Our approach decomposes
long-video synthesis into four steps including scene segmentation, script
generation, sound design and audio synthesis. Central innovations include a
discussion-correction mechanism for scene/script refinement and a
generation-retrieval loop for temporal-semantic alignment. To enable systematic
evaluation, we introduce LVAS-Bench, the first benchmark with 207
professionally curated long videos spanning diverse scenarios. Experiments
demonstrate superior audio-visual alignment over baseline methods. Project
page: https://lvas-agent.github.io