LLaVA-Plus: マルチモーダルエージェント作成のためのツール活用学習
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
November 9, 2023
著者: Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li
cs.AI
要旨
LLaVA-Plusは、大規模マルチモーダルモデルの能力を拡張する汎用マルチモーダルアシスタントです。事前学習済みの視覚モデルおよび視覚-言語モデルのスキルリポジトリを保持し、ユーザーの入力に基づいて関連ツールを起動して現実世界のタスクを遂行します。LLaVA-Plusは、マルチモーダルな指示追従データを用いて訓練され、視覚理解、生成、外部知識検索、およびそれらの組み合わせを含むツール使用能力を獲得します。実験結果は、LLaVA-Plusが既存の能力においてLLaVAを上回り、新たな能力を示すことを示しています。その特徴は、画像クエリが直接的に基盤づけられ、人間とAIのインタラクションセッション全体を通じて積極的に活用されることであり、これによりツール使用性能が大幅に向上し、新たなシナリオが可能となります。
English
LLaVA-Plus is a general-purpose multimodal assistant that expands the
capabilities of large multimodal models. It maintains a skill repository of
pre-trained vision and vision-language models and can activate relevant tools
based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on
multimodal instruction-following data to acquire the ability to use tools,
covering visual understanding, generation, external knowledge retrieval, and
compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in
existing capabilities and exhibits new ones. It is distinct in that the image
query is directly grounded and actively engaged throughout the entire human-AI
interaction sessions, significantly improving tool use performance and enabling
new scenarios.