SEED-Story: Мультимодальная генерация длинных историй с помощью большой языковой модели
SEED-Story: Multimodal Long Story Generation with Large Language Model
July 11, 2024
Авторы: Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen
cs.AI
Аннотация
С замечательными достижениями в области генерации изображений и генерации текста в открытой форме создание переплетенного контента изображений и текста стало все более увлекательной областью. Мультимодальная генерация историй, характеризующаяся созданием повествовательных текстов и ярких изображений в переплетенной форме, вышла на первый план как ценная и практичная задача с широким спектром применений. Однако эта задача представляет существенные вызовы, поскольку требует понимания сложного взаимодействия между текстами и изображениями, а также способности генерировать длинные последовательности согласованных, контекстуально значимых текстов и визуальных элементов. В данной работе мы предлагаем SEED-Story, новый метод, использующий Мультимодельную Большую Языковую Модель (MLLM) для генерации расширенных мультимодальных историй. Наша модель, основанная на мощной способности понимания MLLM, предсказывает текстовые токены, а также визуальные токены, которые впоследствии обрабатываются с помощью адаптированного визуального де-токенизатора для создания изображений с согласованными персонажами и стилями. Мы также предлагаем механизм мультимодального внимания для обеспечения генерации историй с до 25 последовательностями (только 10 для обучения) в высокоэффективном авторегрессивном режиме. Кроме того, мы представляем крупномасштабный и высокоразрешенный набор данных под названием StoryStream для обучения нашей модели и количественной оценки задачи мультимодальной генерации историй в различных аспектах.
English
With the remarkable advancements in image generation and open-form text
generation, the creation of interleaved image-text content has become an
increasingly intriguing field. Multimodal story generation, characterized by
producing narrative texts and vivid images in an interleaved manner, has
emerged as a valuable and practical task with broad applications. However, this
task poses significant challenges, as it necessitates the comprehension of the
complex interplay between texts and images, and the ability to generate long
sequences of coherent, contextually relevant texts and visuals. In this work,
we propose SEED-Story, a novel method that leverages a Multimodal Large
Language Model (MLLM) to generate extended multimodal stories. Our model, built
upon the powerful comprehension capability of MLLM, predicts text tokens as
well as visual tokens, which are subsequently processed with an adapted visual
de-tokenizer to produce images with consistent characters and styles. We
further propose multimodal attention sink mechanism to enable the generation of
stories with up to 25 sequences (only 10 for training) in a highly efficient
autoregressive manner. Additionally, we present a large-scale and
high-resolution dataset named StoryStream for training our model and
quantitatively evaluating the task of multimodal story generation in various
aspects.Summary
AI-Generated Summary