AutoMV: Un Sistema Multi-Agente Automático para la Generación de Videoclips Musicales
AutoMV: An Automatic Multi-Agent System for Music Video Generation
December 13, 2025
Autores: Xiaoxuan Tang, Xinping Lei, Chaoran Zhu, Shiyun Chen, Ruibin Yuan, Yizhi Li, Changjae Oh, Ge Zhang, Wenhao Huang, Emmanouil Benetos, Yang Liu, Jiaheng Liu, Yinghao Ma
cs.AI
Resumen
La generación de Música-a-Vídeo (M2V) para canciones completas enfrenta desafíos significativos. Los métodos existentes producen clips cortos y fragmentados, sin lograr alinear los elementos visuales con la estructura musical, los beats o la letra, y carecen de coherencia temporal. Proponemos AutoMV, un sistema multiagente que genera vídeos musicales (MV) completos directamente a partir de una canción. AutoMV aplica primero herramientas de procesamiento musical para extraer atributos como la estructura, las pistas vocales y la letra alineada temporalmente, y construye estas características como entradas contextuales para los agentes siguientes. El Agente guionista y el Agente director utilizan entonces esta información para diseñar un guion breve, definir perfiles de personajes en un banco externo compartido y especificar instrucciones de cámara. Posteriormente, estos agentes invocan al generador de imágenes para los fotogramas clave y a diferentes generadores de vídeo para las escenas de "historia" o de "cantante". Un Agente Verificador evalúa su salida, permitiendo una colaboración multiagente para producir un MV largo y coherente. Para evaluar la generación M2V, proponemos además un benchmark con cuatro categorías de alto nivel (Contenido Musical, Técnico, Postproducción, Arte) y doce criterios detallados. Este benchmark se aplicó para comparar productos comerciales, AutoMV y MVs dirigidos por humanos con evaluadores expertos: AutoMV supera significativamente a las líneas de base actuales en las cuatro categorías, reduciendo la brecha con los MVs profesionales. Finalmente, investigamos el uso de modelos multimodales grandes como jueces automáticos de MV; aunque son prometedores, aún están por detrás de los expertos humanos, lo que subraya un área para trabajo futuro.
English
Music-to-Video (M2V) generation for full-length songs faces significant challenges. Existing methods produce short, disjointed clips, failing to align visuals with musical structure, beats, or lyrics, and lack temporal consistency. We propose AutoMV, a multi-agent system that generates full music videos (MVs) directly from a song. AutoMV first applies music processing tools to extract musical attributes, such as structure, vocal tracks, and time-aligned lyrics, and constructs these features as contextual inputs for following agents. The screenwriter Agent and director Agent then use this information to design short script, define character profiles in a shared external bank, and specify camera instructions. Subsequently, these agents call the image generator for keyframes and different video generators for "story" or "singer" scenes. A Verifier Agent evaluates their output, enabling multi-agent collaboration to produce a coherent longform MV. To evaluate M2V generation, we further propose a benchmark with four high-level categories (Music Content, Technical, Post-production, Art) and twelve ine-grained criteria. This benchmark was applied to compare commercial products, AutoMV, and human-directed MVs with expert human raters: AutoMV outperforms current baselines significantly across all four categories, narrowing the gap to professional MVs. Finally, we investigate using large multimodal models as automatic MV judges; while promising, they still lag behind human expert, highlighting room for future work.