VisionLLM: 大規模言語モデルは視覚中心タスクのためのオープンエンドデコーダでもある
VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks
May 18, 2023
著者: Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai
cs.AI
要旨
大規模言語モデル(LLMs)は、ユーザーに合わせたタスクに対する印象的なゼロショット能力により、人工汎用知能(AGI)への進展を著しく加速させ、幅広いアプリケーションにおいて莫大な可能性を秘めています。しかし、コンピュータビジョンの分野では、多くの強力なビジョン基盤モデル(VFMs)が利用可能であるにもかかわらず、それらは事前に定義された形式のタスクに限定されており、LLMsのオープンエンドなタスク能力には及んでいません。本研究では、ビジョン中心タスクのためのLLMベースのフレームワークであるVisionLLMを提案します。このフレームワークは、画像を外国語として扱い、ビジョン中心タスクと言語タスクを統一的な視点で捉えることで、言語指示を用いて柔軟に定義・管理できるようにします。LLMベースのデコーダは、これらの指示に基づいてオープンエンドなタスクに対する適切な予測を行うことができます。大規模な実験により、提案されたVisionLLMが、細粒度のオブジェクトレベルから粗粒度のタスクレベルまでのカスタマイズを言語指示を通じて実現し、良好な結果を得られることが示されました。特に、汎用LLMベースのフレームワークを用いて、我々のモデルはCOCOにおいて60%以上のmAPを達成し、検出専用モデルと同等の性能を発揮することが注目に値します。このモデルが、汎用ビジョンと言語モデルの新しいベースラインとなることを期待しています。デモはhttps://github.com/OpenGVLab/InternGPTに基づいて公開されます。コードはhttps://github.com/OpenGVLab/VisionLLMで公開予定です。
English
Large language models (LLMs) have notably accelerated progress towards
artificial general intelligence (AGI), with their impressive zero-shot capacity
for user-tailored tasks, endowing them with immense potential across a range of
applications. However, in the field of computer vision, despite the
availability of numerous powerful vision foundation models (VFMs), they are
still restricted to tasks in a pre-defined form, struggling to match the
open-ended task capabilities of LLMs. In this work, we present an LLM-based
framework for vision-centric tasks, termed VisionLLM. This framework provides a
unified perspective for vision and language tasks by treating images as a
foreign language and aligning vision-centric tasks with language tasks that can
be flexibly defined and managed using language instructions. An LLM-based
decoder can then make appropriate predictions based on these instructions for
open-ended tasks. Extensive experiments show that the proposed VisionLLM can
achieve different levels of task customization through language instructions,
from fine-grained object-level to coarse-grained task-level customization, all
with good results. It's noteworthy that, with a generalist LLM-based framework,
our model can achieve over 60\% mAP on COCO, on par with detection-specific
models. We hope this model can set a new baseline for generalist vision and
language models. The demo shall be released based on
https://github.com/OpenGVLab/InternGPT. The code shall be released at
https://github.com/OpenGVLab/VisionLLM.