ChatPaper.aiChatPaper

ObjEmbed: 普遍的なマルチモーダルオブジェクト埋め込みに向けて

ObjEmbed: Towards Universal Multimodal Object Embeddings

February 2, 2026
著者: Shenghao Fu, Yukun Su, Fengyun Rao, Jing Lyu, Xiaohua Xie, Wei-Shi Zheng
cs.AI

要旨

オブジェクトと対応するテキスト記述の整合を取ることは、視覚言語理解における基本的な課題であり、現実的な要求です。近年のマルチモーダル埋め込みモデルは画像とテキストの大域的な整合性には優れていますが、画像領域と特定のフレーズ間のきめ細かい整合性にはしばしば課題を抱えています。本研究では、入力画像を個々のオブジェクトに対応する複数の領域埋め込みと大域的な埋め込みに分解する、新しいMLLM埋め込みモデルであるObjEmbedを提案します。本モデルは、視覚的グラウンディング、局所的画像検索、大域的画像検索など、幅広い視覚理解タスクをサポートします。ObjEmbedは以下の3つの主要な特性を有します:(1) オブジェクト指向表現:各領域に対して、意味的マッチングのためのオブジェクト埋め込みと、位置特定の質を予測するIoU埋め込みという、補完的な2つの埋め込みを生成することで、オブジェクトの意味的側面と空間的側面の両方を捉えます。最終的なオブジェクトマッチングスコアは、意味的類似度と予測されたIoUを組み合わせることで、より正確な検索を実現します。(2) 汎用性:領域レベルと画像レベルの両方のタスクをシームレスに処理します。(3) 効率的なエンコーディング:画像内の全てのオブジェクトと画像全体が、単一のフォワードパスで効率的にエンコードされます。18の多様なベンチマークにおける優れた性能は、その強力な意味的識別能力を示しています。
English
Aligning objects with corresponding textual descriptions is a fundamental challenge and a realistic requirement in vision-language understanding. While recent multimodal embedding models excel at global image-text alignment, they often struggle with fine-grained alignment between image regions and specific phrases. In this work, we present ObjEmbed, a novel MLLM embedding model that decomposes the input image into multiple regional embeddings, each corresponding to an individual object, along with global embeddings. It supports a wide range of visual understanding tasks like visual grounding, local image retrieval, and global image retrieval. ObjEmbed enjoys three key properties: (1) Object-Oriented Representation: It captures both semantic and spatial aspects of objects by generating two complementary embeddings for each region: an object embedding for semantic matching and an IoU embedding that predicts localization quality. The final object matching score combines semantic similarity with the predicted IoU, enabling more accurate retrieval. (2) Versatility: It seamlessly handles both region-level and image-level tasks. (3) Efficient Encoding: All objects in an image, along with the full image, are encoded in a single forward pass for high efficiency. Superior performance on 18 diverse benchmarks demonstrates its strong semantic discrimination.
PDF41February 5, 2026