VIRTUE: 視覚的インタラクティブテキスト画像ユニバーサルエンベッダー
VIRTUE: Visual-Interactive Text-Image Universal Embedder
October 1, 2025
著者: Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji
cs.AI
要旨
マルチモーダル表現学習モデルは、複雑なタスクにおいて成功を収めており、視覚-言語モデル(VLM)の統合により、指示追従能力を備えた埋め込みモデルがさらに実現されています。しかし、既存の埋め込みモデルには、ユーザーが関心領域(例:ポイント、バウンディングボックス、マスク)を指定するための視覚的インタラクティブ機能が欠けており、これは生成モデルにおいて人間とのインタラクティブな適用性を広げるために探求されてきました。埋め込みモデルに視覚的インタラクションを備えることは、ユーザーの意図を局所的に接地する新たなアプリケーションを開拓するだけでなく、従来の埋め込みタスクにおけるグローバル表現を補完するために、画像内のエンティティレベルの情報を学習することを可能にします。本論文では、セグメンテーションモデルと視覚-言語モデルの能力を表現学習の領域に拡張する新しい視覚的インタラクティブテキスト-画像ユニバーサル埋め込みモデル(VIRTUE)を提案します。VIRTUEでは、セグメンテーションモデルが画像内の特定の領域を指し示す視覚的プロンプトを処理できるため、埋め込みモデルが複雑で曖昧なシナリオをより正確に扱うことが可能になります。VIRTUEの視覚的インタラクション能力を評価するために、特定のオブジェクトと画像シーンを考慮してテキストキャプションを検索することを目的とした、100万サンプルからなる大規模なセグメンテーションとシーンキャプション検索(SCaR)ベンチマークを導入しました。VIRTUEは、36のユニバーサルMMEBタスク(3.1%-8.5%)と5つの視覚的インタラクティブSCaRタスク(15.2%-20.3%)において、一貫して最先端の性能を達成し、大幅な改善を示しました。
English
Multimodal representation learning models have demonstrated successful
operation across complex tasks, and the integration of vision-language models
(VLMs) has further enabled embedding models with instruction-following
capabilities. However, existing embedding models lack visual-interactive
capabilities to specify regions of interest from users (e.g., point, bounding
box, mask), which have been explored in generative models to broaden their
human-interactive applicability. Equipping embedding models with visual
interactions not only would unlock new applications with localized grounding of
user intent, which remains unexplored, but also enable the models to learn
entity-level information within images to complement their global
representations for conventional embedding tasks. In this paper, we propose a
novel Visual-InteRactive Text-Image Universal Embedder (VIRTUE) that extends
the capabilities of the segmentation model and the vision-language model to the
realm of representation learning. In VIRTUE, the segmentation model can process
visual prompts that pinpoint specific regions within an image, thereby enabling
the embedder to handle complex and ambiguous scenarios more precisely. To
evaluate the visual-interaction ability of VIRTUE, we introduce a large-scale
Segmentation-and-Scene Caption Retrieval (SCaR) benchmark comprising 1M samples
that aims to retrieve the text caption by jointly considering the entity with a
specific object and image scene. VIRTUE consistently achieves a
state-of-the-art performance with significant improvements across 36 universal
MMEB (3.1%-8.5%) and five visual-interactive SCaR (15.2%-20.3%) tasks.