ChatPaper.aiChatPaper

AutoMV: Автоматическая мультиагентная система для генерации музыкальных видеоклипов

AutoMV: An Automatic Multi-Agent System for Music Video Generation

December 13, 2025
Авторы: Xiaoxuan Tang, Xinping Lei, Chaoran Zhu, Shiyun Chen, Ruibin Yuan, Yizhi Li, Changjae Oh, Ge Zhang, Wenhao Huang, Emmanouil Benetos, Yang Liu, Jiaheng Liu, Yinghao Ma
cs.AI

Аннотация

Генерация видео по музыке (Music-to-Video, M2V) для полноформатных песен сталкивается со значительными трудностями. Существующие методы создают короткие, несвязанные видеоклипы, которые не согласуются со структурой музыки, ритмом или текстом песни и страдают от отсутствия временной согласованности. Мы предлагаем AutoMV, многоагентную систему, которая генерирует полноценные музыкальные видео (MVs) непосредственно из песни. AutoMV сначала применяет инструменты обработки музыки для извлечения музыкальных атрибутов, таких как структура, вокальные дорожки и синхронизированный по времени текст, и формирует эти признаки в качестве контекстных входных данных для последующих агентов. Затем агент-сценарист и агент-режиссер используют эту информацию для создания короткого сценария, определения профилей персонажей в общем внешнем банке и спецификации инструкций по съемке. После этого эти агенты вызывают генератор изображений для ключевых кадров и различные генераторы видео для сцен "истории" или "певца". Агент-верификатор оценивает их выходные данные, обеспечивая многоагентное взаимодействие для создания связного длинного MV. Для оценки генерации M2V мы дополнительно предлагаем эталонный набор с четырьмя высокоуровневыми категориями (Музыкальное содержание, Техническое качество, Пост-продакшн, Художественность) и двенадцатью детализированными критериями. Этот бенчмарк был применен для сравнения коммерческих продуктов, AutoMV и MVs, снятых людьми, с привлечением экспертов-оценщиков: AutoMV значительно превосходит текущие базовые уровни по всем четырем категориям, сокращая разрыв с профессиональными MVs. Наконец, мы исследуем использование больших мультимодальных моделей в качестве автоматических судей для MVs; хотя результаты обнадеживают, они все еще отстают от экспертов-людей, что указывает на направления для будущей работы.
English
Music-to-Video (M2V) generation for full-length songs faces significant challenges. Existing methods produce short, disjointed clips, failing to align visuals with musical structure, beats, or lyrics, and lack temporal consistency. We propose AutoMV, a multi-agent system that generates full music videos (MVs) directly from a song. AutoMV first applies music processing tools to extract musical attributes, such as structure, vocal tracks, and time-aligned lyrics, and constructs these features as contextual inputs for following agents. The screenwriter Agent and director Agent then use this information to design short script, define character profiles in a shared external bank, and specify camera instructions. Subsequently, these agents call the image generator for keyframes and different video generators for "story" or "singer" scenes. A Verifier Agent evaluates their output, enabling multi-agent collaboration to produce a coherent longform MV. To evaluate M2V generation, we further propose a benchmark with four high-level categories (Music Content, Technical, Post-production, Art) and twelve ine-grained criteria. This benchmark was applied to compare commercial products, AutoMV, and human-directed MVs with expert human raters: AutoMV outperforms current baselines significantly across all four categories, narrowing the gap to professional MVs. Finally, we investigate using large multimodal models as automatic MV judges; while promising, they still lag behind human expert, highlighting room for future work.
PDF52December 17, 2025