ChatPaper.aiChatPaper

Conectando tu Imaginación con la Generación de Audio y Video a través de un Director Unificado

Bridging Your Imagination with Audio-Video Generation via a Unified Director

December 29, 2025
Autores: Jiaxu Zhang, Tianshu Hu, Yuan Zhang, Zenan Li, Linjie Luo, Guosheng Lin, Xin Chen
cs.AI

Resumen

Los sistemas existentes de creación de vídeos impulsados por IA suelen tratar la redacción de guiones y el diseño de planos clave como dos tareas separadas: la primera se basa en modelos de lenguaje extenso, mientras que la segunda depende de modelos de generación de imágenes. Sostenemos que estas dos tareas deberían unificarse en un único marco, ya que el razonamiento lógico y el pensamiento imaginativo son cualidades fundamentales de un director de cine. En este trabajo, proponemos UniMAGE, un modelo de director unificado que conecta las indicaciones del usuario con guiones bien estructurados, permitiendo así a los no expertos producir películas de contexto largo y múltiples planos aprovechando los modelos existentes de generación de audio y vídeo. Para lograrlo, empleamos la arquitectura Mixture-of-Transformers que unifica la generación de texto e imagen. Para mejorar aún más la lógica narrativa y la coherencia de los fotogramas clave, introducimos un paradigma de entrenamiento de "primero entrelazar, luego separar". Específicamente, primero realizamos un Aprendizaje de Conceptos Entrelazados, que utiliza datos de texto e imagen entrelazados para fomentar la comprensión más profunda y la interpretación imaginativa de los guiones por parte del modelo. Luego llevamos a cabo un Aprendizaje Experto Separado, que desacopla la escritura del guión de la generación de fotogramas clave, permitiendo una mayor flexibilidad y creatividad en la narración. Experimentos exhaustivos demuestran que UniMAGE logra un rendimiento de vanguardia entre los modelos de código abierto, generando guiones de vídeo lógicamente coherentes e imágenes de fotogramas clave visualmente consistentes.
English
Existing AI-driven video creation systems typically treat script drafting and key-shot design as two disjoint tasks: the former relies on large language models, while the latter depends on image generation models. We argue that these two tasks should be unified within a single framework, as logical reasoning and imaginative thinking are both fundamental qualities of a film director. In this work, we propose UniMAGE, a unified director model that bridges user prompts with well-structured scripts, thereby empowering non-experts to produce long-context, multi-shot films by leveraging existing audio-video generation models. To achieve this, we employ the Mixture-of-Transformers architecture that unifies text and image generation. To further enhance narrative logic and keyframe consistency, we introduce a ``first interleaving, then disentangling'' training paradigm. Specifically, we first perform Interleaved Concept Learning, which utilizes interleaved text-image data to foster the model's deeper understanding and imaginative interpretation of scripts. We then conduct Disentangled Expert Learning, which decouples script writing from keyframe generation, enabling greater flexibility and creativity in storytelling. Extensive experiments demonstrate that UniMAGE achieves state-of-the-art performance among open-source models, generating logically coherent video scripts and visually consistent keyframe images.
PDF31December 31, 2025