Conectando Sua Imaginação à Geração de Áudio e Vídeo por Meio de um Diretor Unificado
Bridging Your Imagination with Audio-Video Generation via a Unified Director
December 29, 2025
Autores: Jiaxu Zhang, Tianshu Hu, Yuan Zhang, Zenan Li, Linjie Luo, Guosheng Lin, Xin Chen
cs.AI
Resumo
Os sistemas existentes de criação de vídeo baseados em IA geralmente tratam a redação de roteiros e o design de *key-shots* como duas tarefas dissociadas: a primeira recorre a grandes modelos de linguagem, enquanto a segunda depende de modelos de geração de imagens. Defendemos que estas duas tarefas devem ser unificadas num único *framework*, uma vez que o raciocínio lógico e o pensamento imaginativo são ambas qualidades fundamentais de um diretor de cinema. Neste trabalho, propomos o UniMAGE, um modelo de diretor unificado que estabelece uma ponte entre as instruções do utilizador e roteiros bem estruturados, capacitando assim não especialistas para produzir filmes de contexto longo e multi-*shot*, aproveitando os modelos existentes de geração áudio-visual. Para tal, empregamos a arquitetura *Mixture-of-Transformers*, que unifica a geração de texto e imagem. Para melhorar ainda mais a lógica narrativa e a consistência dos *keyframes*, introduzimos um paradigma de treino de "primeiro entrelaçar, depois separar". Especificamente, realizamos primeiro uma *Aprendizagem de Conceitos Entrelaçados*, que utiliza dados texto-imagem intercalados para fomentar uma compreensão mais profunda e uma interpretação imaginativa dos roteiros por parte do modelo. Em seguida, conduzimos uma *Aprendizagem de Especialistas Separada*, que dissocia a escrita do roteiro da geração de *keyframes*, permitindo maior flexibilidade e criatividade na narrativa. Experimentos extensivos demonstram que o UniMAGE alcança um desempenho state-of-the-art entre os modelos de código aberto, gerando roteiros de vídeo logicamente coerentes e imagens de *keyframes* visualmente consistentes.
English
Existing AI-driven video creation systems typically treat script drafting and key-shot design as two disjoint tasks: the former relies on large language models, while the latter depends on image generation models. We argue that these two tasks should be unified within a single framework, as logical reasoning and imaginative thinking are both fundamental qualities of a film director. In this work, we propose UniMAGE, a unified director model that bridges user prompts with well-structured scripts, thereby empowering non-experts to produce long-context, multi-shot films by leveraging existing audio-video generation models. To achieve this, we employ the Mixture-of-Transformers architecture that unifies text and image generation. To further enhance narrative logic and keyframe consistency, we introduce a ``first interleaving, then disentangling'' training paradigm. Specifically, we first perform Interleaved Concept Learning, which utilizes interleaved text-image data to foster the model's deeper understanding and imaginative interpretation of scripts. We then conduct Disentangled Expert Learning, which decouples script writing from keyframe generation, enabling greater flexibility and creativity in storytelling. Extensive experiments demonstrate that UniMAGE achieves state-of-the-art performance among open-source models, generating logically coherent video scripts and visually consistent keyframe images.