ChatPaper.aiChatPaper

Je Verbeelding Verbinden met Audio-Video Generatie via een Uniforme Regisseur

Bridging Your Imagination with Audio-Video Generation via a Unified Director

December 29, 2025
Auteurs: Jiaxu Zhang, Tianshu Hu, Yuan Zhang, Zenan Li, Linjie Luo, Guosheng Lin, Xin Chen
cs.AI

Samenvatting

Bestaande AI-gestuurde videocreatiesystemen behandelen scriptontwerp en key-shot-design doorgaans als twee gescheiden taken: de eerste steunt op grote taalmodel(len), terwijl de laatste afhankelijk is van beeldgeneratiemodellen. Wij beargumenteren dat deze twee taken verenigd moeten worden binnen één enkel raamwerk, aangezien logisch redeneren en verbeeldingskracht beide fundamentele kwaliteiten van een filmregisseur zijn. In dit werk stellen we UniMAGE voor, een verenigd regisseursmodel dat gebruikersprompts verbindt met goed gestructureerde scripts, waardoor niet-experts in staat worden gesteld om lange, multi-shot films te produceren door gebruik te maken van bestaande audio-videogeneratiemodellen. Om dit te bereiken, gebruiken we de Mixture-of-Transformers-architectuur die tekst- en beeldgeneratie verenigt. Om de narratieve logica en keyframe-consistentie verder te verbeteren, introduceren we een "eerst verweven, dan ontwarren" trainingsparadigma. Concreet voeren we eerst Interleaved Concept Learning uit, waarbij verweven tekst-beelddata wordt gebruikt om een dieper begrip en een verbeeldingsrijke interpretatie van scripts door het model te bevorderen. Vervolgens voeren we Disentangled Expert Learning uit, waarbij scriptschrijven wordt ontkoppeld van keyframe-generatie, wat meer flexibiliteit en creativiteit in storytelling mogelijk maakt. Uitgebreide experimenten tonen aan dat UniMAGE state-of-the-art prestaties bereikt onder open-source modellen, waarbij het logisch coherente videoscrips en visueel consistente keyframe-beelden genereert.
English
Existing AI-driven video creation systems typically treat script drafting and key-shot design as two disjoint tasks: the former relies on large language models, while the latter depends on image generation models. We argue that these two tasks should be unified within a single framework, as logical reasoning and imaginative thinking are both fundamental qualities of a film director. In this work, we propose UniMAGE, a unified director model that bridges user prompts with well-structured scripts, thereby empowering non-experts to produce long-context, multi-shot films by leveraging existing audio-video generation models. To achieve this, we employ the Mixture-of-Transformers architecture that unifies text and image generation. To further enhance narrative logic and keyframe consistency, we introduce a ``first interleaving, then disentangling'' training paradigm. Specifically, we first perform Interleaved Concept Learning, which utilizes interleaved text-image data to foster the model's deeper understanding and imaginative interpretation of scripts. We then conduct Disentangled Expert Learning, which decouples script writing from keyframe generation, enabling greater flexibility and creativity in storytelling. Extensive experiments demonstrate that UniMAGE achieves state-of-the-art performance among open-source models, generating logically coherent video scripts and visually consistent keyframe images.
PDF31December 31, 2025