ChatPaper.aiChatPaper

SEED-Story: Multimodale Langgeschichtenerstellung mit großem Sprachmodell

SEED-Story: Multimodal Long Story Generation with Large Language Model

July 11, 2024
Autoren: Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen
cs.AI

Zusammenfassung

Mit den bemerkenswerten Fortschritten in der Bildgenerierung und der Generierung von offenen Texten hat die Erstellung von ineinander verschachtelten Bild-Text-Inhalten ein zunehmend faszinierendes Gebiet erreicht. Die multimodale Geschichtenerzeugung, gekennzeichnet durch die Produktion von narrativen Texten und lebendigen Bildern auf ineinander abgestimmte Weise, hat sich als eine wertvolle und praktische Aufgabe mit breiten Anwendungen herauskristallisiert. Diese Aufgabe birgt jedoch erhebliche Herausforderungen, da sie das Verständnis des komplexen Zusammenspiels zwischen Texten und Bildern erfordert sowie die Fähigkeit, lange Sequenzen kohärenter, kontextuell relevanter Texte und Visuals zu generieren. In dieser Arbeit schlagen wir SEED-Story vor, eine neuartige Methode, die ein Multimodales Großes Sprachmodell (MLLM) nutzt, um erweiterte multimodale Geschichten zu generieren. Unser Modell, aufgebaut auf der leistungsstarken Verständnisfähigkeit des MLLM, sagt Text-Token sowie visuelle Token vorher, die anschließend mit einem angepassten visuellen Detokenisierer verarbeitet werden, um Bilder mit konsistenten Charakteren und Stilen zu erzeugen. Wir schlagen außerdem einen multimodalen Aufmerksamkeits-Sinkmechanismus vor, um die Generierung von Geschichten mit bis zu 25 Sequenzen (nur 10 für das Training) auf äußerst effiziente Weise in einem stark autoregressiven Modus zu ermöglichen. Darüber hinaus präsentieren wir einen umfangreichen und hochauflösenden Datensatz namens StoryStream zur Schulung unseres Modells und zur quantitativen Bewertung der Aufgabe der multimodalen Geschichtenerzeugung in verschiedenen Aspekten.
English
With the remarkable advancements in image generation and open-form text generation, the creation of interleaved image-text content has become an increasingly intriguing field. Multimodal story generation, characterized by producing narrative texts and vivid images in an interleaved manner, has emerged as a valuable and practical task with broad applications. However, this task poses significant challenges, as it necessitates the comprehension of the complex interplay between texts and images, and the ability to generate long sequences of coherent, contextually relevant texts and visuals. In this work, we propose SEED-Story, a novel method that leverages a Multimodal Large Language Model (MLLM) to generate extended multimodal stories. Our model, built upon the powerful comprehension capability of MLLM, predicts text tokens as well as visual tokens, which are subsequently processed with an adapted visual de-tokenizer to produce images with consistent characters and styles. We further propose multimodal attention sink mechanism to enable the generation of stories with up to 25 sequences (only 10 for training) in a highly efficient autoregressive manner. Additionally, we present a large-scale and high-resolution dataset named StoryStream for training our model and quantitatively evaluating the task of multimodal story generation in various aspects.

Summary

AI-Generated Summary

PDF265November 28, 2024