ChatPaper.aiChatPaper

Synthèse audio pour vidéos longues avec collaboration multi-agents

Long-Video Audio Synthesis with Multi-Agent Collaboration

March 13, 2025
Auteurs: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen
cs.AI

Résumé

La synthèse vidéo-vers-audio, qui génère un audio synchronisé pour du contenu visuel, améliore de manière cruciale l'immersion du spectateur et la cohérence narrative dans les films et les médias interactifs. Cependant, le doublage vidéo-vers-audio pour des contenus de longue durée reste un défi non résolu en raison des changements sémantiques dynamiques, des désalignements temporels et de l'absence de jeux de données dédiés. Bien que les méthodes existantes excellent dans les vidéos courtes, elles échouent dans les scénarios longs (par exemple, les films) en raison d'une synthèse fragmentée et d'une cohérence inter-scènes insuffisante. Nous proposons LVAS-Agent, un nouveau cadre multi-agent qui reproduit les workflows professionnels de doublage grâce à une spécialisation collaborative des rôles. Notre approche décompose la synthèse de vidéos longues en quatre étapes, incluant la segmentation de scènes, la génération de scripts, la conception sonore et la synthèse audio. Les innovations centrales incluent un mécanisme de discussion-correction pour l'affinement des scènes/scripts et une boucle de génération-récupération pour l'alignement temporel-sémantique. Pour permettre une évaluation systématique, nous introduisons LVAS-Bench, le premier benchmark comprenant 207 vidéos longues professionnellement sélectionnées couvrant divers scénarios. Les expériences démontrent un alignement audio-visuel supérieur par rapport aux méthodes de référence. Page du projet : https://lvas-agent.github.io
English
Video-to-audio synthesis, which generates synchronized audio for visual content, critically enhances viewer immersion and narrative coherence in film and interactive media. However, video-to-audio dubbing for long-form content remains an unsolved challenge due to dynamic semantic shifts, temporal misalignment, and the absence of dedicated datasets. While existing methods excel in short videos, they falter in long scenarios (e.g., movies) due to fragmented synthesis and inadequate cross-scene consistency. We propose LVAS-Agent, a novel multi-agent framework that emulates professional dubbing workflows through collaborative role specialization. Our approach decomposes long-video synthesis into four steps including scene segmentation, script generation, sound design and audio synthesis. Central innovations include a discussion-correction mechanism for scene/script refinement and a generation-retrieval loop for temporal-semantic alignment. To enable systematic evaluation, we introduce LVAS-Bench, the first benchmark with 207 professionally curated long videos spanning diverse scenarios. Experiments demonstrate superior audio-visual alignment over baseline methods. Project page: https://lvas-agent.github.io
PDF93March 18, 2025