AutoMV: Ein automatisches Multi-Agenten-System zur Musikkapazitätsgenerierung
AutoMV: An Automatic Multi-Agent System for Music Video Generation
December 13, 2025
papers.authors: Xiaoxuan Tang, Xinping Lei, Chaoran Zhu, Shiyun Chen, Ruibin Yuan, Yizhi Li, Changjae Oh, Ge Zhang, Wenhao Huang, Emmanouil Benetos, Yang Liu, Jiaheng Liu, Yinghao Ma
cs.AI
papers.abstract
Die Erstellung von Musik-zu-Video (M2V) Generierungen für komplette Songs steht vor erheblichen Herausforderungen. Bestehende Methoden erzeugen kurze, zusammenhanglose Clips, die es nicht schaffen, die Bildsprache an die musikalische Struktur, den Beat oder den Songtext anzupassen, und es mangelt ihnen an zeitlicher Konsistenz. Wir stellen AutoMV vor, ein Multi-Agenten-System, das direkt aus einem Song komplette Musikvideos (MVs) generiert. AutoMV wendet zunächst Musikverarbeitungstools an, um musikalische Attribute wie Struktur, Gesangsspuren und zeitlich ausgerichtete Songtexte zu extrahieren, und konstruiert diese Merkmale als kontextuelle Eingaben für die nachfolgenden Agenten. Der Drehbuch-Agent und der Regie-Agent nutzen diese Informationen dann, um ein kurzes Skript zu entwerfen, Charakterprofile in einer gemeinsamen externen Datenbank zu definieren und Kameraanweisungen festzulegen. Anschließend rufen diese Agenten den Bildgenerator für Keyframes und verschiedene Videogeneratoren für "Story"- oder "Sänger"-Szenen auf. Ein Verifikations-Agent bewertet ihre Ausgabe, was eine Multi-Agenten-Kollaboration ermöglicht, um einen kohärenten Langform-MV zu produzieren. Um die M2V-Generierung zu bewerten, schlagen wir außerdem einen Benchmark mit vier übergeordneten Kategorien (Musikinhalt, Technik, Postproduktion, Kunst) und zwölf feingranularen Kriterien vor. Dieser Benchmark wurde angewendet, um kommerzielle Produkte, AutoMV und von Menschen erstellte MVs mit Expert:innen als Bewerter zu vergleichen: AutoMV übertrifft die aktuellen Baseline-Modelle in allen vier Kategorien signifikant und verringert die Lücke zu professionellen MVs. Abschließend untersuchen wir den Einsatz großer multimodaler Modelle als automatische MV-Bewerter; obwohl vielversprechend, liegen sie noch hinter menschlichen Expert:innen zurück, was Raum für zukünftige Arbeiten aufzeigt.
English
Music-to-Video (M2V) generation for full-length songs faces significant challenges. Existing methods produce short, disjointed clips, failing to align visuals with musical structure, beats, or lyrics, and lack temporal consistency. We propose AutoMV, a multi-agent system that generates full music videos (MVs) directly from a song. AutoMV first applies music processing tools to extract musical attributes, such as structure, vocal tracks, and time-aligned lyrics, and constructs these features as contextual inputs for following agents. The screenwriter Agent and director Agent then use this information to design short script, define character profiles in a shared external bank, and specify camera instructions. Subsequently, these agents call the image generator for keyframes and different video generators for "story" or "singer" scenes. A Verifier Agent evaluates their output, enabling multi-agent collaboration to produce a coherent longform MV. To evaluate M2V generation, we further propose a benchmark with four high-level categories (Music Content, Technical, Post-production, Art) and twelve ine-grained criteria. This benchmark was applied to compare commercial products, AutoMV, and human-directed MVs with expert human raters: AutoMV outperforms current baselines significantly across all four categories, narrowing the gap to professional MVs. Finally, we investigate using large multimodal models as automatic MV judges; while promising, they still lag behind human expert, highlighting room for future work.