ChatPaper.aiChatPaper

Groma: マルチモーダル大規模言語モデルの接地のための局所化視覚トークン化

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

April 19, 2024
著者: Chuofan Ma, Yi Jiang, Jiannan Wu, Zehuan Yuan, Xiaojuan Qi
cs.AI

要旨

本論文では、Gromaと呼ばれるマルチモーダル大規模言語モデル(MLLM)を紹介する。Gromaは、グラウンドされた細粒度の視覚知覚能力を有しており、画像全体の理解に加えて、領域レベルのタスク(領域キャプショニングや視覚的グラウンディングなど)に優れている。これらの能力は、局所的な視覚トークン化メカニズムに基づいて構築されており、画像入力は関心領域に分解され、その後領域トークンとしてエンコードされる。領域トークンをユーザー指示やモデルの応答に統合することで、Gromaはユーザーが指定した領域入力を理解し、テキスト出力を画像にグラウンドすることが可能となる。さらに、Gromaのグラウンドされたチャット能力を強化するため、GPT-4Vと視覚的プロンプト技術を活用して、視覚的にグラウンドされた指示データセットを構築した。言語モデルや外部モジュールに依存するMLLMと比較して、Gromaは標準的な参照およびグラウンディングベンチマークにおいて一貫して優れた性能を示し、画像トークン化に局所化を組み込むことの利点を強調している。プロジェクトページ: https://groma-mllm.github.io/。
English
We introduce Groma, a Multimodal Large Language Model (MLLM) with grounded and fine-grained visual perception ability. Beyond holistic image understanding, Groma is adept at region-level tasks such as region captioning and visual grounding. Such capabilities are built upon a localized visual tokenization mechanism, where an image input is decomposed into regions of interest and subsequently encoded into region tokens. By integrating region tokens into user instructions and model responses, we seamlessly enable Groma to understand user-specified region inputs and ground its textual output to images. Besides, to enhance the grounded chat ability of Groma, we curate a visually grounded instruction dataset by leveraging the powerful GPT-4V and visual prompting techniques. Compared with MLLMs that rely on the language model or external module for localization, Groma consistently demonstrates superior performances in standard referring and grounding benchmarks, highlighting the advantages of embedding localization into image tokenization. Project page: https://groma-mllm.github.io/.

Summary

AI-Generated Summary

PDF322December 15, 2024