AutoMV: Un Sistema Multi-Agente Automatico per la Generazione di Video Musicali
AutoMV: An Automatic Multi-Agent System for Music Video Generation
December 13, 2025
Autori: Xiaoxuan Tang, Xinping Lei, Chaoran Zhu, Shiyun Chen, Ruibin Yuan, Yizhi Li, Changjae Oh, Ge Zhang, Wenhao Huang, Emmanouil Benetos, Yang Liu, Jiaheng Liu, Yinghao Ma
cs.AI
Abstract
La generazione Music-to-Video (M2V) per canzoni complete affronta sfide significative. I metodi esistenti producono clip brevi e sconnesse, non riuscendo ad allineare le immagini alla struttura musicale, ai beat o al testo, e mancano di coerenza temporale. Proponiamo AutoMV, un sistema multi-agente che genera video musicali (MV) completi direttamente da una canzone. AutoMV applica prima strumenti di elaborazione musicale per estrarre attributi come la struttura, le tracce vocali e i testi allineati temporalmente, costruendo queste caratteristiche come input contestuale per gli agenti successivi. L'Agente sceneggiatore e l'Agente regista utilizzano queste informazioni per progettare una breve sceneggiatura, definire i profili dei personaggi in una banca condivisa esterna e specificare le istruzioni di ripresa. Successivamente, questi agenti richiamano il generatore di immagini per i fotogrammi chiave e diversi generatori video per le scene "narrative" o del "cantante". Un Agente Verificatore valuta il loro output, consentendo una collaborazione multi-agente per produrre un MV lungo e coerente. Per valutare la generazione M2V, proponiamo inoltre un benchmark con quattro categorie di alto livello (Contenuto Musicale, Tecnica, Post-produzione, Artistico) e dodici criteri granulari. Questo benchmark è stato applicato per confrontare prodotti commerciali, AutoMV e MV diretti da umani con valutatori umani esperti: AutoMV supera significativamente le baseline attuali in tutte e quattro le categorie, riducendo il divario con i MV professionali. Infine, investigiamo l'uso di grandi modelli multimodali come giudici automatici di MV; sebbene promettenti, sono ancora inferiori agli esperti umani, evidenziando margine per futuri lavori.
English
Music-to-Video (M2V) generation for full-length songs faces significant challenges. Existing methods produce short, disjointed clips, failing to align visuals with musical structure, beats, or lyrics, and lack temporal consistency. We propose AutoMV, a multi-agent system that generates full music videos (MVs) directly from a song. AutoMV first applies music processing tools to extract musical attributes, such as structure, vocal tracks, and time-aligned lyrics, and constructs these features as contextual inputs for following agents. The screenwriter Agent and director Agent then use this information to design short script, define character profiles in a shared external bank, and specify camera instructions. Subsequently, these agents call the image generator for keyframes and different video generators for "story" or "singer" scenes. A Verifier Agent evaluates their output, enabling multi-agent collaboration to produce a coherent longform MV. To evaluate M2V generation, we further propose a benchmark with four high-level categories (Music Content, Technical, Post-production, Art) and twelve ine-grained criteria. This benchmark was applied to compare commercial products, AutoMV, and human-directed MVs with expert human raters: AutoMV outperforms current baselines significantly across all four categories, narrowing the gap to professional MVs. Finally, we investigate using large multimodal models as automatic MV judges; while promising, they still lag behind human expert, highlighting room for future work.