ChatPaper.aiChatPaper

MIO: マルチモーダルトークンに関する基盤モデル

MIO: A Foundation Model on Multimodal Tokens

September 26, 2024
著者: Zekun Wang, King Zhu, Chunpu Xu, Wangchunshu Zhou, Jiaheng Liu, Yibo Zhang, Jiashuo Wang, Ning Shi, Siyu Li, Yizhi Li, Haoran Que, Zhaoxiang Zhang, Yuanxing Zhang, Ge Zhang, Ke Xu, Jie Fu, Wenhao Huang
cs.AI

要旨

本論文では、多様なモーダルトークンに基づく新しい基盤モデルであるMIOを紹介し、音声、テキスト、画像、動画を統合的かつ自己回帰的に理解および生成する能力を持たせました。大規模言語モデル(LLMs)や多様なモーダルを扱う大規模言語モデル(MM-LLMs)の登場により、人工汎用知能の進歩が促進されていますが、真の任意の入出力理解と生成がまだ不足しています。最近、GPT-4oのリリースにより、複雑な実世界のタスクに対する任意の入出力LLMsの顕著な潜在能力が示され、画像、音声、テキストを横断的に扱うことが可能になりました。ただし、GPT-4oはクローズドソースであり、多様なモーダルの交互配列生成をサポートしていません。このギャップを埋めるために、我々はMIOを提案し、因果的多様なモデリングを用いて4つのモーダリティ間で離散トークンの混合を学習させました。MIOは4段階のトレーニングプロセスを経ています:(1)整列事前トレーニング、(2)交互事前トレーニング、(3)音声強化事前トレーニング、および(4)多様なテキスト、画像、音声タスクに対する包括的な教師付き微調整。実験結果は、MIOが以前の二元モーダルベースライン、任意の入出力モデルベースライン、さらにはモダリティ固有のベースラインと比較して競争力があり、一部の場合には優れた性能を示すことを示しています。さらに、MIOは、交互ビデオテキスト生成、視覚的思考の連鎖推論、視覚的ガイドライン生成、指示画像編集など、任意の入出力機能に固有の高度な機能を示しています。
English
In this paper, we introduce MIO, a novel foundation model built on multimodal tokens, capable of understanding and generating speech, text, images, and videos in an end-to-end, autoregressive manner. While the emergence of large language models (LLMs) and multimodal large language models (MM-LLMs) propels advancements in artificial general intelligence through their versatile capabilities, they still lack true any-to-any understanding and generation. Recently, the release of GPT-4o has showcased the remarkable potential of any-to-any LLMs for complex real-world tasks, enabling omnidirectional input and output across images, speech, and text. However, it is closed-source and does not support the generation of multimodal interleaved sequences. To address this gap, we present MIO, which is trained on a mixture of discrete tokens across four modalities using causal multimodal modeling. MIO undergoes a four-stage training process: (1) alignment pre-training, (2) interleaved pre-training, (3) speech-enhanced pre-training, and (4) comprehensive supervised fine-tuning on diverse textual, visual, and speech tasks. Our experimental results indicate that MIO exhibits competitive, and in some cases superior, performance compared to previous dual-modal baselines, any-to-any model baselines, and even modality-specific baselines. Moreover, MIO demonstrates advanced capabilities inherent to its any-to-any feature, such as interleaved video-text generation, chain-of-visual-thought reasoning, visual guideline generation, instructional image editing, etc.

Summary

AI-Generated Summary

PDF544November 16, 2024