SEED-Story: 대규모 언어 모델을 활용한 멀티모달 장편 스토리 생성
SEED-Story: Multimodal Long Story Generation with Large Language Model
July 11, 2024
저자: Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen
cs.AI
초록
이미지 생성과 자유 형식 텍스트 생성 분야의 눈부신 발전으로, 이미지와 텍스트가 교차된 콘텐츠 생성은 점점 더 흥미로운 연구 분야로 부상하고 있습니다. 특히 내러티브 텍스트와 생동감 있는 이미지를 교차적으로 생성하는 멀티모달 스토리 생성은 광범위한 응용 가능성을 지닌 가치 있고 실용적인 과제로 대두되었습니다. 그러나 이 과제는 텍스트와 이미지 간의 복잡한 상호작용을 이해하고, 일관성 있고 맥락적으로 관련된 긴 텍스트와 시각적 요소를 생성해야 한다는 점에서 상당한 도전 과제를 안고 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 멀티모달 대형 언어 모델(MLLM)을 활용하여 확장된 멀티모달 스토리를 생성하는 새로운 방법인 SEED-Story를 제안합니다. 우리의 모델은 MLLM의 강력한 이해 능력을 기반으로 텍스트 토큰과 시각적 토큰을 예측하며, 이를 적응형 시각적 디토크나이저로 처리하여 일관된 캐릭터와 스타일을 가진 이미지를 생성합니다. 또한, 최대 25개의 시퀀스(학습 시에는 10개만 사용)로 구성된 스토리를 고효율의 자기회귀 방식으로 생성할 수 있도록 멀티모달 주의력 싱크(attention sink) 메커니즘을 제안합니다. 더불어, 우리는 모델 학습과 멀티모달 스토리 생성 과제를 다양한 측면에서 정량적으로 평가하기 위해 대규모 고해상도 데이터셋인 StoryStream을 제시합니다.
English
With the remarkable advancements in image generation and open-form text
generation, the creation of interleaved image-text content has become an
increasingly intriguing field. Multimodal story generation, characterized by
producing narrative texts and vivid images in an interleaved manner, has
emerged as a valuable and practical task with broad applications. However, this
task poses significant challenges, as it necessitates the comprehension of the
complex interplay between texts and images, and the ability to generate long
sequences of coherent, contextually relevant texts and visuals. In this work,
we propose SEED-Story, a novel method that leverages a Multimodal Large
Language Model (MLLM) to generate extended multimodal stories. Our model, built
upon the powerful comprehension capability of MLLM, predicts text tokens as
well as visual tokens, which are subsequently processed with an adapted visual
de-tokenizer to produce images with consistent characters and styles. We
further propose multimodal attention sink mechanism to enable the generation of
stories with up to 25 sequences (only 10 for training) in a highly efficient
autoregressive manner. Additionally, we present a large-scale and
high-resolution dataset named StoryStream for training our model and
quantitatively evaluating the task of multimodal story generation in various
aspects.Summary
AI-Generated Summary