ChatPaper.aiChatPaper

AutoMV : Un système multi-agent automatique pour la génération de clips musicaux

AutoMV: An Automatic Multi-Agent System for Music Video Generation

December 13, 2025
papers.authors: Xiaoxuan Tang, Xinping Lei, Chaoran Zhu, Shiyun Chen, Ruibin Yuan, Yizhi Li, Changjae Oh, Ge Zhang, Wenhao Huang, Emmanouil Benetos, Yang Liu, Jiaheng Liu, Yinghao Ma
cs.AI

papers.abstract

La génération de vidéos à partir de musique (Music-to-Video ou M2V) pour des chansons complètes présente des défis significatifs. Les méthodes existantes produisent des clips courts et décousus, échouant à aligner les visuels sur la structure musicale, le rythme ou les paroles, et manquent de cohérence temporelle. Nous proposons AutoMV, un système multi-agents qui génère des clips vidéo (MV) complets directement à partir d'une chanson. AutoMV applique d'abord des outils de traitement audio pour extraire les attributs musicaux, tels que la structure, les pistes vocales et les paroles alignées dans le temps, et construit ces caractéristiques comme entrées contextuelles pour les agents suivants. L'Agent scénariste et l'Agent réalisateur utilisent ensuite ces informations pour concevoir un script court, définir des profils de personnages dans une banque externe partagée, et spécifier des instructions caméra. Par la suite, ces agents sollicitent le générateur d'images pour les images clés et différents générateurs vidéo pour les scènes "histoire" ou "chanteur". Un Agent Vérificateur évalue leur production, permettant une collaboration multi-agents pour créer un MV long et cohérent. Pour évaluer la génération M2V, nous proposons en outre un benchmark avec quatre catégories de haut niveau (Contenu Musical, Technique, Post-production, Artistique) et douze critères granulaires. Ce benchmark a été appliqué pour comparer des produits commerciaux, AutoMV et des MVs réalisés par des humains, avec des évaluateurs experts humains : AutoMV surpasse significativement les bases de référence actuelles dans les quatre catégories, réduisant l'écart avec les MVs professionnels. Enfin, nous explorons l'utilisation de grands modèles multimodaux comme juges automatiques de MV ; bien que prometteuse, cette approche reste inférieure à l'expertise humaine, soulignant un axe d'amélioration future.
English
Music-to-Video (M2V) generation for full-length songs faces significant challenges. Existing methods produce short, disjointed clips, failing to align visuals with musical structure, beats, or lyrics, and lack temporal consistency. We propose AutoMV, a multi-agent system that generates full music videos (MVs) directly from a song. AutoMV first applies music processing tools to extract musical attributes, such as structure, vocal tracks, and time-aligned lyrics, and constructs these features as contextual inputs for following agents. The screenwriter Agent and director Agent then use this information to design short script, define character profiles in a shared external bank, and specify camera instructions. Subsequently, these agents call the image generator for keyframes and different video generators for "story" or "singer" scenes. A Verifier Agent evaluates their output, enabling multi-agent collaboration to produce a coherent longform MV. To evaluate M2V generation, we further propose a benchmark with four high-level categories (Music Content, Technical, Post-production, Art) and twelve ine-grained criteria. This benchmark was applied to compare commercial products, AutoMV, and human-directed MVs with expert human raters: AutoMV outperforms current baselines significantly across all four categories, narrowing the gap to professional MVs. Finally, we investigate using large multimodal models as automatic MV judges; while promising, they still lag behind human expert, highlighting room for future work.
PDF52December 17, 2025