Brücken schlagen zwischen Ihrer Vorstellungskraft und Audio-Video-Generierung durch einen einheitlichen Regisseur
Bridging Your Imagination with Audio-Video Generation via a Unified Director
December 29, 2025
papers.authors: Jiaxu Zhang, Tianshu Hu, Yuan Zhang, Zenan Li, Linjie Luo, Guosheng Lin, Xin Chen
cs.AI
papers.abstract
Bestehende KI-gesteuerte Videocreationsysteme behandeln das Verfassen von Drehbüchern und das Design von Schlüsseleinstellungen typischerweise als zwei getrennte Aufgaben: Ersteres stützt sich auf große Sprachmodelle, während Letzteres von Bildgenerierungsmodellen abhängt. Wir vertreten die Auffassung, dass diese beiden Aufgaben in einem einzigen Framework vereinheitlicht werden sollten, da logisches Denken und imaginative Vorstellungskraft gleichermaßen grundlegende Qualitäten eines Filmregisseurs sind. In dieser Arbeit schlagen wir UniMAGE vor, ein vereinheitlichtes Regisseurmodell, das Benutzeranfragen mit wohlstrukturierten Drehbüchern verbindet und damit Laien befähigt, langkettige, mehrszenische Filme unter Nutzung bestehender Audio-Video-Generierungsmodelle zu produzieren. Um dies zu erreichen, setzen wir die Mixture-of-Transformers-Architektur ein, die Text- und Bildgenerierung vereint. Um die narrative Logik und die Konsistenz der Keyframes weiter zu verbessern, führen wir ein Trainingsparadigma des „erst Verschachtelns, dann Entknäulens“ ein. Konkret führen wir zunächst interleaved Concept Learning durch, das verschachtelte Text-Bild-Daten nutzt, um ein tieferes Verständnis und eine imaginative Interpretation der Drehbücher im Modell zu fördern. Anschließend führen wir Disentangled Expert Learning durch, das das Drehbuchschreiben von der Keyframe-Generierung entkoppelt und so mehr Flexibilität und Kreativität in der Erzählung ermöglicht. Umfangreiche Experimente belegen, dass UniMAGE unter Open-Source-Modellen state-of-the-art Leistung erzielt und logisch kohärente Videodrehbücher sowie visuell konsistente Keyframe-Bilder generiert.
English
Existing AI-driven video creation systems typically treat script drafting and key-shot design as two disjoint tasks: the former relies on large language models, while the latter depends on image generation models. We argue that these two tasks should be unified within a single framework, as logical reasoning and imaginative thinking are both fundamental qualities of a film director. In this work, we propose UniMAGE, a unified director model that bridges user prompts with well-structured scripts, thereby empowering non-experts to produce long-context, multi-shot films by leveraging existing audio-video generation models. To achieve this, we employ the Mixture-of-Transformers architecture that unifies text and image generation. To further enhance narrative logic and keyframe consistency, we introduce a ``first interleaving, then disentangling'' training paradigm. Specifically, we first perform Interleaved Concept Learning, which utilizes interleaved text-image data to foster the model's deeper understanding and imaginative interpretation of scripts. We then conduct Disentangled Expert Learning, which decouples script writing from keyframe generation, enabling greater flexibility and creativity in storytelling. Extensive experiments demonstrate that UniMAGE achieves state-of-the-art performance among open-source models, generating logically coherent video scripts and visually consistent keyframe images.