ChatPaper.aiChatPaper

AutoMV: 音楽ビデオ生成のための自動マルチエージェントシステム

AutoMV: An Automatic Multi-Agent System for Music Video Generation

December 13, 2025
著者: Xiaoxuan Tang, Xinping Lei, Chaoran Zhu, Shiyun Chen, Ruibin Yuan, Yizhi Li, Changjae Oh, Ge Zhang, Wenhao Huang, Emmanouil Benetos, Yang Liu, Jiaheng Liu, Yinghao Ma
cs.AI

要旨

フルレングス楽曲における音楽映像生成(M2V)は、大きな課題に直面している。既存手法では、短く断片的なクリップが生成され、視覚要素と楽曲構造、ビート、歌詞との整合性が取れておらず、時間的一貫性も欠如している。我々は、楽曲から直接フル尺のミュージックビデオ(MV)を生成するマルチエージェントシステム、AutoMVを提案する。AutoMVはまず、音楽処理ツールを適用して楽曲構造、ボーカルトラック、時間軸に沿った歌詞などの音楽的属性を抽出し、これらを後続のエージェントへの文脈入力として構築する。次に、脚本家エージェントと監督エージェントがこの情報を用いて短い脚本を設計し、共有外部バンク内でキャラクタープロファイルを定義し、カメラ指示を具体化する。その後、これらのエージェントはキーフレーム生成のための画像生成器と、「ストーリー」シーンや「歌手」シーン用の異なる映像生成器を呼び出す。検証エージェントがそれらの出力を評価し、マルチエージェント協調による一貫性のある長尺MVの生成を実現する。M2V生成を評価するため、我々はさらに、4つの高次元カテゴリ(音楽コンテンツ、技術、ポストプロダクション、芸術性)と12の詳細な評価基準からなるベンチマークを提案する。このベンチマークを用いて、市販製品、AutoMV、および人間が制作したMVを専門家による評価で比較した結果、AutoMVは全4カテゴリにおいて既存のベースラインを大きく上回り、プロのMVとの差を縮めた。最後に、大規模マルチモーダルモデルを自動MV評価器として利用する可能性を探る。有望ではあるものの、依然として人間の専門家には及ばず、今後の研究の余地が示された。
English
Music-to-Video (M2V) generation for full-length songs faces significant challenges. Existing methods produce short, disjointed clips, failing to align visuals with musical structure, beats, or lyrics, and lack temporal consistency. We propose AutoMV, a multi-agent system that generates full music videos (MVs) directly from a song. AutoMV first applies music processing tools to extract musical attributes, such as structure, vocal tracks, and time-aligned lyrics, and constructs these features as contextual inputs for following agents. The screenwriter Agent and director Agent then use this information to design short script, define character profiles in a shared external bank, and specify camera instructions. Subsequently, these agents call the image generator for keyframes and different video generators for "story" or "singer" scenes. A Verifier Agent evaluates their output, enabling multi-agent collaboration to produce a coherent longform MV. To evaluate M2V generation, we further propose a benchmark with four high-level categories (Music Content, Technical, Post-production, Art) and twelve ine-grained criteria. This benchmark was applied to compare commercial products, AutoMV, and human-directed MVs with expert human raters: AutoMV outperforms current baselines significantly across all four categories, narrowing the gap to professional MVs. Finally, we investigate using large multimodal models as automatic MV judges; while promising, they still lag behind human expert, highlighting room for future work.
PDF52December 17, 2025