ChatPaper.aiChatPaper

Síntese de Áudio para Vídeos Longos com Colaboração Multiagente

Long-Video Audio Synthesis with Multi-Agent Collaboration

March 13, 2025
Autores: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen
cs.AI

Resumo

A síntese de vídeo para áudio, que gera áudio sincronizado para conteúdo visual, aprimora criticamente a imersão do espectador e a coerência narrativa em filmes e mídias interativas. No entanto, a dublagem de vídeo para áudio em conteúdos de longa duração permanece um desafio não resolvido devido a mudanças semânticas dinâmicas, desalinhamento temporal e a ausência de conjuntos de dados dedicados. Embora os métodos existentes se destaquem em vídeos curtos, eles falham em cenários longos (por exemplo, filmes) devido à síntese fragmentada e à consistência inadequada entre cenas. Propomos o LVAS-Agent, uma estrutura multiagente inovadora que emula fluxos de trabalho profissionais de dublagem por meio de especialização colaborativa de papéis. Nossa abordagem decompõe a síntese de vídeos longos em quatro etapas, incluindo segmentação de cenas, geração de roteiro, design de som e síntese de áudio. Inovações centrais incluem um mecanismo de discussão-correção para refinamento de cenas/roteiros e um loop de geração-recuperação para alinhamento temporal-semântico. Para permitir uma avaliação sistemática, introduzimos o LVAS-Bench, o primeiro benchmark com 207 vídeos longos curados profissionalmente, abrangendo diversos cenários. Experimentos demonstram um alinhamento áudio-visual superior em comparação com métodos de base. Página do projeto: https://lvas-agent.github.io
English
Video-to-audio synthesis, which generates synchronized audio for visual content, critically enhances viewer immersion and narrative coherence in film and interactive media. However, video-to-audio dubbing for long-form content remains an unsolved challenge due to dynamic semantic shifts, temporal misalignment, and the absence of dedicated datasets. While existing methods excel in short videos, they falter in long scenarios (e.g., movies) due to fragmented synthesis and inadequate cross-scene consistency. We propose LVAS-Agent, a novel multi-agent framework that emulates professional dubbing workflows through collaborative role specialization. Our approach decomposes long-video synthesis into four steps including scene segmentation, script generation, sound design and audio synthesis. Central innovations include a discussion-correction mechanism for scene/script refinement and a generation-retrieval loop for temporal-semantic alignment. To enable systematic evaluation, we introduce LVAS-Bench, the first benchmark with 207 professionally curated long videos spanning diverse scenarios. Experiments demonstrate superior audio-visual alignment over baseline methods. Project page: https://lvas-agent.github.io

Summary

AI-Generated Summary

PDF93March 18, 2025