SEED-Story : Génération de longues histoires multimodales avec un modèle de langage de grande envergure
SEED-Story: Multimodal Long Story Generation with Large Language Model
July 11, 2024
Auteurs: Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen
cs.AI
Résumé
Avec les avancées remarquables dans la génération d'images et de textes à forme ouverte, la création de contenus intercalés image-texte est devenue un domaine de plus en plus fascinant. La génération d'histoires multimodales, caractérisée par la production de textes narratifs et d'images vives de manière intercalée, s'est imposée comme une tâche précieuse et pratique avec des applications étendues. Cependant, cette tâche présente des défis significatifs, car elle nécessite la compréhension de l'interaction complexe entre les textes et les images, ainsi que la capacité à générer de longues séquences de textes et de visuels cohérents et contextuellement pertinents. Dans ce travail, nous proposons SEED-Story, une méthode novatrice qui exploite un Modèle de Langage Multimodal à Grande Échelle (MLLM) pour générer des histoires multimodales étendues. Notre modèle, basé sur la puissante capacité de compréhension du MLLM, prédit des tokens de texte ainsi que des tokens visuels, qui sont ensuite traités par un détokeniseur visuel adapté pour produire des images avec des personnages et des styles cohérents. Nous proposons en outre un mécanisme d'attention multimodale pour permettre la génération d'histoires comportant jusqu'à 25 séquences (seulement 10 pour l'entraînement) de manière hautement efficace et autoregressive. De plus, nous présentons un jeu de données à grande échelle et haute résolution nommé StoryStream pour entraîner notre modèle et évaluer quantitativement la tâche de génération d'histoires multimodales sous divers aspects.
English
With the remarkable advancements in image generation and open-form text
generation, the creation of interleaved image-text content has become an
increasingly intriguing field. Multimodal story generation, characterized by
producing narrative texts and vivid images in an interleaved manner, has
emerged as a valuable and practical task with broad applications. However, this
task poses significant challenges, as it necessitates the comprehension of the
complex interplay between texts and images, and the ability to generate long
sequences of coherent, contextually relevant texts and visuals. In this work,
we propose SEED-Story, a novel method that leverages a Multimodal Large
Language Model (MLLM) to generate extended multimodal stories. Our model, built
upon the powerful comprehension capability of MLLM, predicts text tokens as
well as visual tokens, which are subsequently processed with an adapted visual
de-tokenizer to produce images with consistent characters and styles. We
further propose multimodal attention sink mechanism to enable the generation of
stories with up to 25 sequences (only 10 for training) in a highly efficient
autoregressive manner. Additionally, we present a large-scale and
high-resolution dataset named StoryStream for training our model and
quantitatively evaluating the task of multimodal story generation in various
aspects.Summary
AI-Generated Summary