マルチエージェント協調による長時間動画の音声合成
Long-Video Audio Synthesis with Multi-Agent Collaboration
March 13, 2025
著者: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen
cs.AI
要旨
映像から音声を合成するビデオ・ツー・オーディオ技術は、視覚コンテンツに同期した音声を生成することで、映画やインタラクティブメディアにおける視聴者の没入感と物語の一貫性を大幅に向上させます。しかし、長編コンテンツのビデオ・ツー・オーディオ吹き替えは、動的な意味の変化、時間的なずれ、専用データセットの欠如といった課題により、未解決のままです。既存の手法は短い動画では優れた性能を発揮しますが、映画などの長いシナリオでは、断片的な合成やシーン間の一貫性の欠如により性能が低下します。本研究では、専門的な吹き替えワークフローを模倣する新たなマルチエージェントフレームワーク「LVAS-Agent」を提案します。このアプローチでは、長編ビデオの合成を、シーン分割、台本生成、サウンドデザイン、音声合成の4つのステップに分解します。中心的な革新点として、シーンや台本を洗練するためのディスカッション・修正メカニズムと、時間的・意味的な整合性を確保するための生成・検索ループを導入しています。体系的な評価を可能にするため、多様なシナリオを網羅した207本のプロフェッショナルキュレーション長編ビデオを含む初のベンチマーク「LVAS-Bench」を構築しました。実験結果は、ベースライン手法を上回る優れた視聴覚整合性を示しています。プロジェクトページ: https://lvas-agent.github.io
English
Video-to-audio synthesis, which generates synchronized audio for visual
content, critically enhances viewer immersion and narrative coherence in film
and interactive media. However, video-to-audio dubbing for long-form content
remains an unsolved challenge due to dynamic semantic shifts, temporal
misalignment, and the absence of dedicated datasets. While existing methods
excel in short videos, they falter in long scenarios (e.g., movies) due to
fragmented synthesis and inadequate cross-scene consistency. We propose
LVAS-Agent, a novel multi-agent framework that emulates professional dubbing
workflows through collaborative role specialization. Our approach decomposes
long-video synthesis into four steps including scene segmentation, script
generation, sound design and audio synthesis. Central innovations include a
discussion-correction mechanism for scene/script refinement and a
generation-retrieval loop for temporal-semantic alignment. To enable systematic
evaluation, we introduce LVAS-Bench, the first benchmark with 207
professionally curated long videos spanning diverse scenarios. Experiments
demonstrate superior audio-visual alignment over baseline methods. Project
page: https://lvas-agent.github.ioSummary
AI-Generated Summary