ChatPaper.aiChatPaper

AutoMV: Een Automatisch Multi-Agent Systeem voor Muziekvideo-generatie

AutoMV: An Automatic Multi-Agent System for Music Video Generation

December 13, 2025
Auteurs: Xiaoxuan Tang, Xinping Lei, Chaoran Zhu, Shiyun Chen, Ruibin Yuan, Yizhi Li, Changjae Oh, Ge Zhang, Wenhao Huang, Emmanouil Benetos, Yang Liu, Jiaheng Liu, Yinghao Ma
cs.AI

Samenvatting

Muziek-naar-Video (M2V)-generatie voor volledige nummers kampt met aanzienlijke uitdagingen. Bestaande methodes produceren korte, onsamenhangende clips, slagen er niet in visuele elementen af te stemmen op de muziekstructuur, beats of songteksten, en missen temporele consistentie. Wij stellen AutoMV voor, een multi-agent systeem dat direct vanuit een nummer volledige muziekvideo's (MV's) genereert. AutoMV past eerst muziekverwerkingstools toe om muzikale attributen zoals structuur, vocalen en tijdelijk uitgelijnde songteksten te extraheren, en construeert deze kenmerken als contextuele invoer voor volgende agents. Het Scenario-agent en Regisseur-agent gebruiken deze informatie vervolgens om een kort script te ontwerpen, personageprofielen in een gedeelde externe bank te definiëren en camerainstructies te specificeren. Vervolgens roepen deze agents de beeldgenerator aan voor keyframes en verschillende videogeneratoren voor "verhaal"- of "zanger"-scènes. Een Verificateur-agent evalueert hun output, wat multi-agent samenwerking mogelijk maakt om een coherente lange video te produceren. Om M2V-generatie te evalueren, stellen we verder een benchmark voor met vier hoog-niveau categorieën (Muziekinhoud, Technisch, Post-productie, Kunst) en twaalf fijnmazige criteria. Deze benchmark werd toegepast om commerciële producten, AutoMV en door mensen geregisseerde MV's te vergelijken met expert-beoordelaars: AutoMV presteert significant beter dan de huidige baseline-methodes in alle vier de categorieën en verkleint de kloof met professionele MV's. Ten slotte onderzoeken we het gebruik van grote multimodale modellen als automatische MV-beoordelaars; hoewel veelbelovend, blijven ze achter bij menselijke experts, wat ruimte voor toekomstig werk aangeeft.
English
Music-to-Video (M2V) generation for full-length songs faces significant challenges. Existing methods produce short, disjointed clips, failing to align visuals with musical structure, beats, or lyrics, and lack temporal consistency. We propose AutoMV, a multi-agent system that generates full music videos (MVs) directly from a song. AutoMV first applies music processing tools to extract musical attributes, such as structure, vocal tracks, and time-aligned lyrics, and constructs these features as contextual inputs for following agents. The screenwriter Agent and director Agent then use this information to design short script, define character profiles in a shared external bank, and specify camera instructions. Subsequently, these agents call the image generator for keyframes and different video generators for "story" or "singer" scenes. A Verifier Agent evaluates their output, enabling multi-agent collaboration to produce a coherent longform MV. To evaluate M2V generation, we further propose a benchmark with four high-level categories (Music Content, Technical, Post-production, Art) and twelve ine-grained criteria. This benchmark was applied to compare commercial products, AutoMV, and human-directed MVs with expert human raters: AutoMV outperforms current baselines significantly across all four categories, narrowing the gap to professional MVs. Finally, we investigate using large multimodal models as automatic MV judges; while promising, they still lag behind human expert, highlighting room for future work.
PDF52December 22, 2025