SEED-Story: Geração de Histórias Longas Multimodais com um Grande Modelo de Linguagem
SEED-Story: Multimodal Long Story Generation with Large Language Model
July 11, 2024
Autores: Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen
cs.AI
Resumo
Com os notáveis avanços na geração de imagens e na geração de texto de formato aberto, a criação de conteúdo multimodal de imagem-texto entrelaçado tornou-se um campo cada vez mais intrigante. A geração de histórias multimodais, caracterizada pela produção de textos narrativos e imagens vívidas de maneira entrelaçada, emergiu como uma tarefa valiosa e prática com amplas aplicações. No entanto, essa tarefa apresenta desafios significativos, pois exige a compreensão da complexa interação entre textos e imagens, e a capacidade de gerar sequências longas de textos e visuais coerentes e contextualmente relevantes. Neste trabalho, propomos o SEED-Story, um método inovador que aproveita um Modelo de Linguagem Multimodal Grande (MLLM) para gerar histórias multimodais estendidas. Nosso modelo, construído com base na poderosa capacidade de compreensão do MLLM, prevê tokens de texto e também tokens visuais, que são posteriormente processados com um detokenizador visual adaptado para produzir imagens com personagens e estilos consistentes. Além disso, propomos um mecanismo de atenção multimodal para possibilitar a geração de histórias com até 25 sequências (apenas 10 para treinamento) de maneira autoregressiva altamente eficiente. Adicionalmente, apresentamos um conjunto de dados em grande escala e alta resolução chamado StoryStream para treinar nosso modelo e avaliar quantitativamente a tarefa de geração de histórias multimodais em diversos aspectos.
English
With the remarkable advancements in image generation and open-form text
generation, the creation of interleaved image-text content has become an
increasingly intriguing field. Multimodal story generation, characterized by
producing narrative texts and vivid images in an interleaved manner, has
emerged as a valuable and practical task with broad applications. However, this
task poses significant challenges, as it necessitates the comprehension of the
complex interplay between texts and images, and the ability to generate long
sequences of coherent, contextually relevant texts and visuals. In this work,
we propose SEED-Story, a novel method that leverages a Multimodal Large
Language Model (MLLM) to generate extended multimodal stories. Our model, built
upon the powerful comprehension capability of MLLM, predicts text tokens as
well as visual tokens, which are subsequently processed with an adapted visual
de-tokenizer to produce images with consistent characters and styles. We
further propose multimodal attention sink mechanism to enable the generation of
stories with up to 25 sequences (only 10 for training) in a highly efficient
autoregressive manner. Additionally, we present a large-scale and
high-resolution dataset named StoryStream for training our model and
quantitatively evaluating the task of multimodal story generation in various
aspects.