Синтез аудио для длинных видео с использованием многоагентного взаимодействия
Long-Video Audio Synthesis with Multi-Agent Collaboration
March 13, 2025
Авторы: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen
cs.AI
Аннотация
Синтез аудио из видео, который генерирует синхронизированный звук для визуального контента, значительно повышает погружение зрителя и согласованность повествования в кино и интерактивных медиа. Однако озвучивание длинных видео остается нерешенной задачей из-за динамических семантических изменений, временного рассогласования и отсутствия специализированных наборов данных. Хотя существующие методы хорошо справляются с короткими видео, они терпят неудачу в длинных сценариях (например, в фильмах) из-за фрагментарного синтеза и недостаточной согласованности между сценами. Мы предлагаем LVAS-Agent, новый мультиагентный фреймворк, который имитирует профессиональные процессы озвучивания через специализацию ролей. Наш подход разбивает синтез длинных видео на четыре этапа: сегментация сцен, генерация сценария, звуковой дизайн и синтез аудио. Ключевые инновации включают механизм обсуждения и исправления для уточнения сцен и сценариев, а также цикл генерации и поиска для временно-семантического согласования. Для систематической оценки мы представляем LVAS-Bench, первый бенчмарк с 207 профессионально подготовленными длинными видео, охватывающими различные сценарии. Эксперименты демонстрируют превосходное аудиовизуальное согласование по сравнению с базовыми методами. Страница проекта: https://lvas-agent.github.io
English
Video-to-audio synthesis, which generates synchronized audio for visual
content, critically enhances viewer immersion and narrative coherence in film
and interactive media. However, video-to-audio dubbing for long-form content
remains an unsolved challenge due to dynamic semantic shifts, temporal
misalignment, and the absence of dedicated datasets. While existing methods
excel in short videos, they falter in long scenarios (e.g., movies) due to
fragmented synthesis and inadequate cross-scene consistency. We propose
LVAS-Agent, a novel multi-agent framework that emulates professional dubbing
workflows through collaborative role specialization. Our approach decomposes
long-video synthesis into four steps including scene segmentation, script
generation, sound design and audio synthesis. Central innovations include a
discussion-correction mechanism for scene/script refinement and a
generation-retrieval loop for temporal-semantic alignment. To enable systematic
evaluation, we introduce LVAS-Bench, the first benchmark with 207
professionally curated long videos spanning diverse scenarios. Experiments
demonstrate superior audio-visual alignment over baseline methods. Project
page: https://lvas-agent.github.ioSummary
AI-Generated Summary