DreamLLM:協調的なマルチモーダル理解と生成
DreamLLM: Synergistic Multimodal Comprehension and Creation
September 20, 2023
著者: Runpei Dong, Chunrui Han, Yuang Peng, Zekun Qi, Zheng Ge, Jinrong Yang, Liang Zhao, Jianjian Sun, Hongyu Zhou, Haoran Wei, Xiangwen Kong, Xiangyu Zhang, Kaisheng Ma, Li Yi
cs.AI
要旨
本論文は、DreamLLMを紹介する。これは、多様なマルチモーダル大規模言語モデル(MLLM)を実現する学習フレームワークであり、これまで見過ごされがちだったマルチモーダル理解と生成の相乗効果を初めて活用したものである。DreamLLMは、2つの基本原理に基づいて動作する。第一に、言語と画像の事後分布を生のマルチモーダル空間で直接サンプリングすることによる生成モデリングに焦点を当てる。このアプローチにより、CLIPのような外部特徴抽出器に伴う制約や情報損失を回避し、より徹底したマルチモーダル理解が得られる。第二に、DreamLLMは、テキストと画像の内容に加えて、非構造化レイアウトもモデル化した生の交互文書の生成を促進する。これにより、DreamLLMはすべての条件付き、周辺、および結合マルチモーダル分布を効果的に学習することができる。その結果、DreamLLMは自由形式の交互コンテンツを生成できる初のMLLMとなった。包括的な実験により、DreamLLMがゼロショットマルチモーダルジェネラリストとして優れた性能を発揮し、強化された学習の相乗効果から大きな成果を得ていることが明らかになった。
English
This paper presents DreamLLM, a learning framework that first achieves
versatile Multimodal Large Language Models (MLLMs) empowered with frequently
overlooked synergy between multimodal comprehension and creation. DreamLLM
operates on two fundamental principles. The first focuses on the generative
modeling of both language and image posteriors by direct sampling in the raw
multimodal space. This approach circumvents the limitations and information
loss inherent to external feature extractors like CLIP, and a more thorough
multimodal understanding is obtained. Second, DreamLLM fosters the generation
of raw, interleaved documents, modeling both text and image contents, along
with unstructured layouts. This allows DreamLLM to learn all conditional,
marginal, and joint multimodal distributions effectively. As a result, DreamLLM
is the first MLLM capable of generating free-form interleaved content.
Comprehensive experiments highlight DreamLLM's superior performance as a
zero-shot multimodal generalist, reaping from the enhanced learning synergy.