SEED-Story: Generazione Multimodale di Storie Lunghe con Modelli Linguistici di Grandi Dimensioni

Abstract

Con i notevoli progressi nella generazione di immagini e nella generazione di testo aperto, la creazione di contenuti intercalati di immagini e testo è diventata un campo sempre più affascinante. La generazione di storie multimodali, caratterizzata dalla produzione di testi narrativi e immagini vivide in modo intercalato, è emersa come un compito prezioso e pratico con ampie applicazioni. Tuttavia, questo compito presenta sfide significative, poiché richiede la comprensione dell'interazione complessa tra testi e immagini e la capacità di generare sequenze lunghe di testi e visualizzazioni coerenti e contestualmente rilevanti. In questo lavoro, proponiamo SEED-Story, un metodo innovativo che sfrutta un Modello Linguistico Multimodale di Grande Scala (MLLM) per generare storie multimodali estese. Il nostro modello, basato sulla potente capacità di comprensione dell'MLLM, predice token di testo e token visivi, che vengono successivamente elaborati con un de-tokenizzatore visivo adattato per produrre immagini con personaggi e stili consistenti. Proponiamo inoltre un meccanismo di attenzione multimodale per consentire la generazione di storie con fino a 25 sequenze (solo 10 per l'addestramento) in modo altamente efficiente e autoregressivo. Inoltre, presentiamo un dataset su larga scala e ad alta risoluzione denominato StoryStream per addestrare il nostro modello e valutare quantitativamente il compito della generazione di storie multimodali in vari aspetti.

English

With the remarkable advancements in image generation and open-form text generation, the creation of interleaved image-text content has become an increasingly intriguing field. Multimodal story generation, characterized by producing narrative texts and vivid images in an interleaved manner, has emerged as a valuable and practical task with broad applications. However, this task poses significant challenges, as it necessitates the comprehension of the complex interplay between texts and images, and the ability to generate long sequences of coherent, contextually relevant texts and visuals. In this work, we propose SEED-Story, a novel method that leverages a Multimodal Large Language Model (MLLM) to generate extended multimodal stories. Our model, built upon the powerful comprehension capability of MLLM, predicts text tokens as well as visual tokens, which are subsequently processed with an adapted visual de-tokenizer to produce images with consistent characters and styles. We further propose multimodal attention sink mechanism to enable the generation of stories with up to 25 sequences (only 10 for training) in a highly efficient autoregressive manner. Additionally, we present a large-scale and high-resolution dataset named StoryStream for training our model and quantitatively evaluating the task of multimodal story generation in various aspects.

SEED-Story: Generazione Multimodale di Storie Lunghe con Modelli Linguistici di Grandi Dimensioni

SEED-Story: Multimodal Long Story Generation with Large Language Model

Abstract

Support