ChatPaper.aiChatPaper

Lange-Video Audiogeneratie met Multi-Agent Samenwerking

Long-Video Audio Synthesis with Multi-Agent Collaboration

March 13, 2025
Auteurs: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen
cs.AI

Samenvatting

Video-to-audio-synthese, waarbij gesynchroniseerde audio wordt gegenereerd voor visuele inhoud, verbetert de kijkerservaring en narratieve samenhang in film en interactieve media aanzienlijk. Echter blijft video-to-audio-nasynchronisatie voor langere content een onopgeloste uitdaging vanwege dynamische semantische verschuivingen, temporele uitlijning en het ontbreken van specifieke datasets. Hoewel bestaande methoden uitblinken in korte video's, schieten ze tekort in langere scenario's (bijv. films) vanwege gefragmenteerde synthese en onvoldoende consistentie tussen scènes. Wij stellen LVAS-Agent voor, een innovatief multi-agent raamwerk dat professionele nasynchronisatiewerkstromen nabootst door middel van collaboratieve rolspecialisatie. Onze aanpak deelt lange-video-synthese op in vier stappen, waaronder scènesegmentatie, scriptgeneratie, sounddesign en audiosynthese. Belangrijke innovaties omvatten een discussie-correctiemechanisme voor scène/scriptverfijning en een generatie-retrieval-lus voor temporeel-semantische uitlijning. Om systematische evaluatie mogelijk te maken, introduceren we LVAS-Bench, de eerste benchmark met 207 professioneel samengestelde lange video's die diverse scenario's bestrijken. Experimenten tonen superieure audio-visuele uitlijning aan in vergelijking met baseline-methoden. Projectpagina: https://lvas-agent.github.io
English
Video-to-audio synthesis, which generates synchronized audio for visual content, critically enhances viewer immersion and narrative coherence in film and interactive media. However, video-to-audio dubbing for long-form content remains an unsolved challenge due to dynamic semantic shifts, temporal misalignment, and the absence of dedicated datasets. While existing methods excel in short videos, they falter in long scenarios (e.g., movies) due to fragmented synthesis and inadequate cross-scene consistency. We propose LVAS-Agent, a novel multi-agent framework that emulates professional dubbing workflows through collaborative role specialization. Our approach decomposes long-video synthesis into four steps including scene segmentation, script generation, sound design and audio synthesis. Central innovations include a discussion-correction mechanism for scene/script refinement and a generation-retrieval loop for temporal-semantic alignment. To enable systematic evaluation, we introduce LVAS-Bench, the first benchmark with 207 professionally curated long videos spanning diverse scenarios. Experiments demonstrate superior audio-visual alignment over baseline methods. Project page: https://lvas-agent.github.io

Summary

AI-Generated Summary

PDF93March 18, 2025