SEED-Story: 大規模言語モデルを用いたマルチモーダル長編ストーリー生成
SEED-Story: Multimodal Long Story Generation with Large Language Model
July 11, 2024
著者: Shuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen
cs.AI
要旨
画像生成と自由形式テキスト生成の著しい進展に伴い、画像とテキストが交互に配置されたコンテンツの作成は、ますます興味深い分野となっています。物語テキストと鮮やかな画像を交互に生成するマルチモーダルストーリー生成は、幅広い応用が可能な価値ある実用的なタスクとして浮上しています。しかし、このタスクは大きな課題を抱えており、テキストと画像の複雑な相互作用を理解し、長いシーケンスの一貫性があり文脈に関連したテキストとビジュアルを生成する能力が必要です。本研究では、マルチモーダル大規模言語モデル(MLLM)を活用して拡張されたマルチモーダルストーリーを生成する新しい手法であるSEED-Storyを提案します。私たちのモデルは、MLLMの強力な理解能力を基盤として、テキストトークンだけでなくビジュアルトークンも予測し、その後、適応されたビジュアルデトークナイザーで処理することで、一貫したキャラクターとスタイルを持つ画像を生成します。さらに、最大25シーケンス(トレーニングでは10シーケンスのみ)のストーリーを効率的な自己回帰方式で生成するためのマルチモーダルアテンションシンクメカニズムを提案します。加えて、私たちのモデルをトレーニングし、マルチモーダルストーリー生成タスクをさまざまな側面から定量的に評価するための大規模で高解像度のデータセットであるStoryStreamを提示します。
English
With the remarkable advancements in image generation and open-form text
generation, the creation of interleaved image-text content has become an
increasingly intriguing field. Multimodal story generation, characterized by
producing narrative texts and vivid images in an interleaved manner, has
emerged as a valuable and practical task with broad applications. However, this
task poses significant challenges, as it necessitates the comprehension of the
complex interplay between texts and images, and the ability to generate long
sequences of coherent, contextually relevant texts and visuals. In this work,
we propose SEED-Story, a novel method that leverages a Multimodal Large
Language Model (MLLM) to generate extended multimodal stories. Our model, built
upon the powerful comprehension capability of MLLM, predicts text tokens as
well as visual tokens, which are subsequently processed with an adapted visual
de-tokenizer to produce images with consistent characters and styles. We
further propose multimodal attention sink mechanism to enable the generation of
stories with up to 25 sequences (only 10 for training) in a highly efficient
autoregressive manner. Additionally, we present a large-scale and
high-resolution dataset named StoryStream for training our model and
quantitatively evaluating the task of multimodal story generation in various
aspects.Summary
AI-Generated Summary