다중 에이전트 협업을 통한 장편 비디오 오디오 합성
Long-Video Audio Synthesis with Multi-Agent Collaboration
March 13, 2025
저자: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen
cs.AI
초록
비디오-오디오 합성은 시각적 콘텐츠에 동기화된 오디오를 생성함으로써 영화 및 인터랙티브 미디어에서 시청자의 몰입감과 내러티브 일관성을 크게 향상시킵니다. 그러나 긴 형식의 콘텐츠에 대한 비디오-오디오 더빙은 동적 의미 변화, 시간적 불일치, 전용 데이터셋의 부재로 인해 여전히 해결되지 않은 과제로 남아 있습니다. 기존 방법들은 짧은 비디오에서는 뛰어난 성능을 보이지만, 장면 간 일관성 부족과 단편적인 합성으로 인해 영화와 같은 긴 시나리오에서는 제대로 작동하지 못합니다. 우리는 전문 더빙 워크플로우를 모방한 협업적 역할 분담을 통해 이를 해결하는 새로운 다중 에이전트 프레임워크인 LVAS-Agent를 제안합니다. 우리의 접근 방식은 장면 분할, 대본 생성, 사운드 디자인, 오디오 합성을 포함한 네 단계로 긴 비디오 합성을 분해합니다. 주요 혁신으로는 장면/대본 개선을 위한 토론-수정 메커니즘과 시간적-의미적 정렬을 위한 생성-검색 루프가 포함됩니다. 체계적인 평가를 위해, 우리는 다양한 시나리오를 아우르는 207개의 전문적으로 큐레이션된 긴 비디오로 구성된 최초의 벤치마크인 LVAS-Bench를 소개합니다. 실험 결과, LVAS-Agent는 기준 방법들보다 우수한 오디오-비주얼 정렬을 보여줍니다. 프로젝트 페이지: https://lvas-agent.github.io
English
Video-to-audio synthesis, which generates synchronized audio for visual
content, critically enhances viewer immersion and narrative coherence in film
and interactive media. However, video-to-audio dubbing for long-form content
remains an unsolved challenge due to dynamic semantic shifts, temporal
misalignment, and the absence of dedicated datasets. While existing methods
excel in short videos, they falter in long scenarios (e.g., movies) due to
fragmented synthesis and inadequate cross-scene consistency. We propose
LVAS-Agent, a novel multi-agent framework that emulates professional dubbing
workflows through collaborative role specialization. Our approach decomposes
long-video synthesis into four steps including scene segmentation, script
generation, sound design and audio synthesis. Central innovations include a
discussion-correction mechanism for scene/script refinement and a
generation-retrieval loop for temporal-semantic alignment. To enable systematic
evaluation, we introduce LVAS-Bench, the first benchmark with 207
professionally curated long videos spanning diverse scenarios. Experiments
demonstrate superior audio-visual alignment over baseline methods. Project
page: https://lvas-agent.github.ioSummary
AI-Generated Summary