SEED-Story: Multimodale Lange Verhaalgeneratie met Groot Taalmodel
SEED-Story: Multimodal Long Story Generation with Large Language Model
July 11, 2024
Auteurs: Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen
cs.AI
Samenvatting
Met de opmerkelijke vooruitgang in beeldgeneratie en open-vorm tekstgeneratie is het creëren van gecombineerde beeld-tekstinhoud een steeds interessanter vakgebied geworden. Multimodale verhaalgeneratie, gekenmerkt door het produceren van narratieve teksten en levendige beelden op een gecombineerde manier, is naar voren gekomen als een waardevolle en praktische taak met brede toepassingen. Deze taak brengt echter aanzienlijke uitdagingen met zich mee, omdat het inzicht vereist in de complexe wisselwerking tussen teksten en beelden, en het vermogen om lange sequenties van samenhangende, contextueel relevante teksten en visuals te genereren. In dit werk stellen we SEED-Story voor, een nieuwe methode die gebruikmaakt van een Multimodaal Taalmodel (MLLM) om uitgebreide multimodale verhalen te genereren. Ons model, gebaseerd op de krachtige begripscapaciteit van MLLM, voorspelt zowel teksttokens als visuele tokens, die vervolgens worden verwerkt met een aangepaste visuele detokenizer om beelden te produceren met consistente personages en stijlen. We introduceren verder een multimodale aandachtssink-mechanisme om de generatie van verhalen met maximaal 25 sequenties (slechts 10 voor training) op een zeer efficiënte autoregressieve manier mogelijk te maken. Daarnaast presenteren we een grootschalige en hoogwaardige dataset genaamd StoryStream voor het trainen van ons model en het kwantitatief evalueren van de taak van multimodale verhaalgeneratie in verschillende aspecten.
English
With the remarkable advancements in image generation and open-form text
generation, the creation of interleaved image-text content has become an
increasingly intriguing field. Multimodal story generation, characterized by
producing narrative texts and vivid images in an interleaved manner, has
emerged as a valuable and practical task with broad applications. However, this
task poses significant challenges, as it necessitates the comprehension of the
complex interplay between texts and images, and the ability to generate long
sequences of coherent, contextually relevant texts and visuals. In this work,
we propose SEED-Story, a novel method that leverages a Multimodal Large
Language Model (MLLM) to generate extended multimodal stories. Our model, built
upon the powerful comprehension capability of MLLM, predicts text tokens as
well as visual tokens, which are subsequently processed with an adapted visual
de-tokenizer to produce images with consistent characters and styles. We
further propose multimodal attention sink mechanism to enable the generation of
stories with up to 25 sequences (only 10 for training) in a highly efficient
autoregressive manner. Additionally, we present a large-scale and
high-resolution dataset named StoryStream for training our model and
quantitatively evaluating the task of multimodal story generation in various
aspects.