ChatPaper.aiChatPaper

SEED-Story: Generación de Historias Largas Multimodales con un Gran Modelo de Lenguaje

SEED-Story: Multimodal Long Story Generation with Large Language Model

July 11, 2024
Autores: Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen
cs.AI

Resumen

Con los notables avances en la generación de imágenes y en la generación de texto de formato abierto, la creación de contenido imagen-texto entrelazado se ha convertido en un campo cada vez más intrigante. La generación de historias multimodales, caracterizada por producir textos narrativos e imágenes vívidas de manera entrelazada, ha surgido como una tarea valiosa y práctica con amplias aplicaciones. Sin embargo, esta tarea plantea desafíos significativos, ya que requiere la comprensión de la compleja interacción entre textos e imágenes, y la capacidad de generar secuencias largas de textos y visuales coherentes y contextualmente relevantes. En este trabajo, proponemos SEED-Story, un método novedoso que aprovecha un Modelo de Lenguaje Multimodal Grande (MLLM) para generar historias multimodales extendidas. Nuestro modelo, construido sobre la potente capacidad de comprensión del MLLM, predice tokens de texto, así como tokens visuales, que posteriormente se procesan con un des-tokenizador visual adaptado para producir imágenes con personajes y estilos consistentes. Además, proponemos un mecanismo de atención multimodal para permitir la generación de historias con hasta 25 secuencias (solo 10 para entrenamiento) de manera altamente eficiente y autoregresiva. Asimismo, presentamos un conjunto de datos a gran escala y alta resolución llamado StoryStream para entrenar nuestro modelo y evaluar cuantitativamente la tarea de generación de historias multimodales en diversos aspectos.
English
With the remarkable advancements in image generation and open-form text generation, the creation of interleaved image-text content has become an increasingly intriguing field. Multimodal story generation, characterized by producing narrative texts and vivid images in an interleaved manner, has emerged as a valuable and practical task with broad applications. However, this task poses significant challenges, as it necessitates the comprehension of the complex interplay between texts and images, and the ability to generate long sequences of coherent, contextually relevant texts and visuals. In this work, we propose SEED-Story, a novel method that leverages a Multimodal Large Language Model (MLLM) to generate extended multimodal stories. Our model, built upon the powerful comprehension capability of MLLM, predicts text tokens as well as visual tokens, which are subsequently processed with an adapted visual de-tokenizer to produce images with consistent characters and styles. We further propose multimodal attention sink mechanism to enable the generation of stories with up to 25 sequences (only 10 for training) in a highly efficient autoregressive manner. Additionally, we present a large-scale and high-resolution dataset named StoryStream for training our model and quantitatively evaluating the task of multimodal story generation in various aspects.

Summary

AI-Generated Summary

PDF265November 28, 2024