AutoMV: Um Sistema Multiagente Automático para Geração de Videoclipes

Resumo

A geração de Música-para-Vídeo (M2V) para músicas completas enfrenta desafios significativos. Os métodos existentes produzem clipes curtos e desconexos, falhando em alinhar os visuais com a estrutura musical, batidas ou letras, e carecem de consistência temporal. Propomos o AutoMV, um sistema multiagente que gera videoclipes (MV) completos diretamente a partir de uma música. O AutoMV aplica primeiro ferramentas de processamento de música para extrair atributos musicais, como estrutura, faixas vocais e letras sincronizadas no tempo, e constrói essas características como entradas contextuais para os agentes seguintes. O Agente Roteirista e o Agente Diretor usam então essa informação para elaborar um roteiro curto, definir perfis de personagens em um banco externo compartilhado e especificar instruções de câmera. Subsequentemente, esses agentes chamam o gerador de imagens para *keyframes* e diferentes geradores de vídeo para cenas de "história" ou do "cantor". Um Agente Verificador avalia sua saída, permitindo uma colaboração multiagente para produzir um MV longo e coerente. Para avaliar a geração M2V, propomos ainda um *benchmark* com quatro categorias de alto nível (Conteúdo Musical, Técnico, Pós-produção, Arte) e doze critérios granulares. Este *benchmark* foi aplicado para comparar produtos comerciais, o AutoMV e MVs dirigidos por humanos com avaliadores humanos especialistas: o AutoMV supera significativamente as *baselines* atuais em todas as quatro categorias, reduzindo a distância para os MVs profissionais. Finalmente, investigamos o uso de grandes modelos multimodais como juízes automáticos de MV; embora promissor, eles ainda ficam atrás dos especialistas humanos, destacando espaço para trabalhos futuros.

English

Music-to-Video (M2V) generation for full-length songs faces significant challenges. Existing methods produce short, disjointed clips, failing to align visuals with musical structure, beats, or lyrics, and lack temporal consistency. We propose AutoMV, a multi-agent system that generates full music videos (MVs) directly from a song. AutoMV first applies music processing tools to extract musical attributes, such as structure, vocal tracks, and time-aligned lyrics, and constructs these features as contextual inputs for following agents. The screenwriter Agent and director Agent then use this information to design short script, define character profiles in a shared external bank, and specify camera instructions. Subsequently, these agents call the image generator for keyframes and different video generators for "story" or "singer" scenes. A Verifier Agent evaluates their output, enabling multi-agent collaboration to produce a coherent longform MV. To evaluate M2V generation, we further propose a benchmark with four high-level categories (Music Content, Technical, Post-production, Art) and twelve ine-grained criteria. This benchmark was applied to compare commercial products, AutoMV, and human-directed MVs with expert human raters: AutoMV outperforms current baselines significantly across all four categories, narrowing the gap to professional MVs. Finally, we investigate using large multimodal models as automatic MV judges; while promising, they still lag behind human expert, highlighting room for future work.

AutoMV: Um Sistema Multiagente Automático para Geração de Videoclipes

AutoMV: An Automatic Multi-Agent System for Music Video Generation

Resumo

Support