Collegare la tua immaginazione con la generazione audio-video attraverso un regista unificato

Abstract

I sistemi esistenti di creazione video basati sull'intelligenza artificiale trattano tipicamente la stesura della sceneggiatura e la progettazione degli scatti chiave come due compiti separati: il primo si affida a modelli linguistici di grandi dimensioni, mentre il secondo dipende da modelli di generazione di immagini. Sosteniamo che questi due compiti dovrebbero essere unificati in un unico framework, poiché il ragionamento logico e il pensiero immaginativo sono entrambi qualità fondamentali di un regista cinematografico. In questo lavoro, proponiamo UniMAGE, un modello di regia unificato che collega i prompt dell'utente con sceneggiature ben strutturate, consentendo così ai non esperti di produrre film multi-scena a lungo contesto sfruttando modelli esistenti di generazione audio-video. Per raggiungere questo obiettivo, utilizziamo l'architettura Mixture-of-Transformers che unifica la generazione di testo e immagini. Per migliorare ulteriormente la logica narrativa e la coerenza dei fotogrammi chiave, introduciamo un paradigma di addestramento "prima interlacciamento, poi separazione". Nello specifico, eseguiamo prima l'Interleaved Concept Learning, che utilizza dati testo-immagine interlacciati per favorire una comprensione più profonda e un'interpretazione immaginativa delle sceneggiature da parte del modello. Successivamente conduciamo il Disentangled Expert Learning, che disaccoppia la scrittura della sceneggiatura dalla generazione dei fotogrammi chiave, consentendo maggiore flessibilità e creatività nella narrazione. Esperimenti estensivi dimostrano che UniMAGE raggiunge prestazioni all'avanguardia tra i modelli open-source, generando sceneggiature video logicamente coerenti e immagini dei fotogrammi chiave visivamente consistenti.

English

Existing AI-driven video creation systems typically treat script drafting and key-shot design as two disjoint tasks: the former relies on large language models, while the latter depends on image generation models. We argue that these two tasks should be unified within a single framework, as logical reasoning and imaginative thinking are both fundamental qualities of a film director. In this work, we propose UniMAGE, a unified director model that bridges user prompts with well-structured scripts, thereby empowering non-experts to produce long-context, multi-shot films by leveraging existing audio-video generation models. To achieve this, we employ the Mixture-of-Transformers architecture that unifies text and image generation. To further enhance narrative logic and keyframe consistency, we introduce a ``first interleaving, then disentangling'' training paradigm. Specifically, we first perform Interleaved Concept Learning, which utilizes interleaved text-image data to foster the model's deeper understanding and imaginative interpretation of scripts. We then conduct Disentangled Expert Learning, which decouples script writing from keyframe generation, enabling greater flexibility and creativity in storytelling. Extensive experiments demonstrate that UniMAGE achieves state-of-the-art performance among open-source models, generating logically coherent video scripts and visually consistent keyframe images.

Collegare la tua immaginazione con la generazione audio-video attraverso un regista unificato

Bridging Your Imagination with Audio-Video Generation via a Unified Director

Abstract

Support