TextBind: マルチターン交互型マルチモーダル指示追従
TextBind: Multi-turn Interleaved Multimodal Instruction-following
September 14, 2023
著者: Huayang Li, Siheng Li, Deng Cai, Longyue Wang, Lemao Liu, Taro Watanabe, Yujiu Yang, Shuming Shi
cs.AI
要旨
指示追従能力を備えた大規模言語モデルは、人工知能の分野に革命をもたらしました。これらのモデルは、自然言語インターフェースを通じて様々な現実世界のタスクに対処する際に、卓越した汎化性能を示します。しかし、その性能は高品質な模範データに大きく依存しており、こうしたデータを入手することは往々にして困難です。この課題は、マルチモーダルな指示追従においてさらに深刻化します。本論文では、TextBindを紹介します。これは、大規模言語モデルにマルチターンでインタリーブされたマルチモーダル指示追従能力を付与する、ほぼアノテーションフリーのフレームワークです。私たちのアプローチでは、画像とキャプションのペアのみを必要とし、言語モデルからマルチターンのマルチモーダル指示-応答会話を生成します。マルチモーダル指示追従の分野における今後の研究を促進するため、データセット、モデル、デモを公開します。
English
Large language models with instruction-following abilities have
revolutionized the field of artificial intelligence. These models show
exceptional generalizability to tackle various real-world tasks through their
natural language interfaces. However, their performance heavily relies on
high-quality exemplar data, which is often difficult to obtain. This challenge
is further exacerbated when it comes to multimodal instruction following. We
introduce TextBind, an almost annotation-free framework for empowering larger
language models with the multi-turn interleaved multimodal
instruction-following capabilities. Our approach requires only image-caption
pairs and generates multi-turn multimodal instruction-response conversations
from a language model. We release our dataset, model, and demo to foster future
research in the area of multimodal instruction following.