ChatPaper.aiChatPaper

AutoMV: 음악 비디오 생성을 위한 자동 다중 에이전트 시스템

AutoMV: An Automatic Multi-Agent System for Music Video Generation

December 13, 2025
저자: Xiaoxuan Tang, Xinping Lei, Chaoran Zhu, Shiyun Chen, Ruibin Yuan, Yizhi Li, Changjae Oh, Ge Zhang, Wenhao Huang, Emmanouil Benetos, Yang Liu, Jiaheng Liu, Yinghao Ma
cs.AI

초록

풀-길이 노래에 대한 Music-to-Video(M2V) 생성은 상당한 과제에 직면해 있습니다. 기존 방법들은 짧고 단절된 클립을 생성하며, 비주얼을 음악적 구조, 비트 또는 가사와 정렬하는 데 실패하고 시간적 일관성이 부족합니다. 우리는 노래에서 직접 풀 뮤직비디오(MV)를 생성하는 다중 에이전트 시스템인 AutoMV를 제안합니다. AutoMV는 먼저 음악 처리 도구를 적용하여 구조, 보컬 트랙, 시간 정렬된 가사와 같은 음악적 속성을 추출하고, 이러한 특징들을 후속 에이전트를 위한 맥락적 입력으로 구성합니다. 이후 스크린라이터 에이전트와 디렉터 에이전트는 이 정보를 사용하여 짧은 스크립트를 설계하고, 공유 외부 뱅크에 캐릭터 프로필을 정의하며, 카메라 지시사항을 명시합니다. 이어서 이러한 에이전트들은 키프레임 생성을 위해 이미지 생성기를, "스토리" 또는 "가수" 장면 생성을 위해 다양한 비디오 생성기를 호출합니다. 검증자 에이전트는 그들의 출력을 평가하여 다중 에이전트 협업이 일관된 장편 MV를 생성할 수 있도록 합니다. M2V 생성을 평가하기 위해, 우리는 4개의 상위 범주(음악 콘텐츠, 기술, 후반 작업, 예술)와 12개의 세부 기준을 가진 벤치마크를 추가로 제안합니다. 이 벤치마크를 적용하여 상용 제품, AutoMV, 그리고 인간이 제작한 MV를 전문가 평가자들과 비교했습니다: AutoMV는 4개 범주 모두에서 현재 기준선을 크게 능가하며 전문 MV와의 격차를 좁혔습니다. 마지막으로, 우리는 대규모 멀티모달 모델을 자동 MV 평가자로 활용하는 방안을 조사했습니다; 유망하지만, 여전히 인간 전문가에 뒤처져 향후 연구의 필요성을 보여줍니다.
English
Music-to-Video (M2V) generation for full-length songs faces significant challenges. Existing methods produce short, disjointed clips, failing to align visuals with musical structure, beats, or lyrics, and lack temporal consistency. We propose AutoMV, a multi-agent system that generates full music videos (MVs) directly from a song. AutoMV first applies music processing tools to extract musical attributes, such as structure, vocal tracks, and time-aligned lyrics, and constructs these features as contextual inputs for following agents. The screenwriter Agent and director Agent then use this information to design short script, define character profiles in a shared external bank, and specify camera instructions. Subsequently, these agents call the image generator for keyframes and different video generators for "story" or "singer" scenes. A Verifier Agent evaluates their output, enabling multi-agent collaboration to produce a coherent longform MV. To evaluate M2V generation, we further propose a benchmark with four high-level categories (Music Content, Technical, Post-production, Art) and twelve ine-grained criteria. This benchmark was applied to compare commercial products, AutoMV, and human-directed MVs with expert human raters: AutoMV outperforms current baselines significantly across all four categories, narrowing the gap to professional MVs. Finally, we investigate using large multimodal models as automatic MV judges; while promising, they still lag behind human expert, highlighting room for future work.
PDF52December 17, 2025