Un pont entre votre imagination et la génération audiovisuelle grâce à un metteur en scène unifié
Bridging Your Imagination with Audio-Video Generation via a Unified Director
December 29, 2025
papers.authors: Jiaxu Zhang, Tianshu Hu, Yuan Zhang, Zenan Li, Linjie Luo, Guosheng Lin, Xin Chen
cs.AI
papers.abstract
Les systèmes existants de création vidéo pilotés par l'IA traitent généralement la rédaction de scénarios et la conception des plans-clés comme deux tâches disjointes : la première repose sur les grands modèles de langage, tandis que la seconde dépend des modèles de génération d'images. Nous soutenons que ces deux tâches devraient être unifiées dans un cadre unique, car le raisonnement logique et la pensée imaginative sont toutes deux des qualités fondamentales d'un réalisateur de film. Dans ce travail, nous proposons UniMAGE, un modèle de réalisateur unifié qui fait le lien entre les instructions utilisateur et des scénarios bien structurés, permettant ainsi aux non-experts de produire des films à contexte long et multi-plans en tirant parti des modèles existants de génération audio-vidéo. Pour y parvenir, nous utilisons l'architecture Mixture-of-Transformers qui unifie la génération de texte et d'image. Pour renforcer davantage la logique narrative et la cohérence des images-clés, nous introduisons un paradigme d'apprentissage « d'abord entrelacé, puis désentrelacé ». Plus précisément, nous effectuons d'abord un Apprentissage de Concepts Entrelacés, qui utilise des données texte-image entrelacées pour favoriser une compréhension plus profonde et une interprétation imaginative des scénarios par le modèle. Nous conduisons ensuite un Apprentissage Expert Désentrelacé, qui découple l'écriture du scénario de la génération des images-clés, permettant une plus grande flexibilité et créativité dans la narration. Des expériences approfondies démontrent qu'UniMAGE obtient des performances de pointe parmi les modèles open-source, générant des scripts vidéo logiquement cohérents et des images-clés visuellement consistantes.
English
Existing AI-driven video creation systems typically treat script drafting and key-shot design as two disjoint tasks: the former relies on large language models, while the latter depends on image generation models. We argue that these two tasks should be unified within a single framework, as logical reasoning and imaginative thinking are both fundamental qualities of a film director. In this work, we propose UniMAGE, a unified director model that bridges user prompts with well-structured scripts, thereby empowering non-experts to produce long-context, multi-shot films by leveraging existing audio-video generation models. To achieve this, we employ the Mixture-of-Transformers architecture that unifies text and image generation. To further enhance narrative logic and keyframe consistency, we introduce a ``first interleaving, then disentangling'' training paradigm. Specifically, we first perform Interleaved Concept Learning, which utilizes interleaved text-image data to foster the model's deeper understanding and imaginative interpretation of scripts. We then conduct Disentangled Expert Learning, which decouples script writing from keyframe generation, enabling greater flexibility and creativity in storytelling. Extensive experiments demonstrate that UniMAGE achieves state-of-the-art performance among open-source models, generating logically coherent video scripts and visually consistent keyframe images.