VIRTUE : Intégrateur Universel Texte-Image Visuel-Interactif
VIRTUE: Visual-Interactive Text-Image Universal Embedder
October 1, 2025
papers.authors: Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji
cs.AI
papers.abstract
Les modèles d'apprentissage de représentation multimodale ont démontré leur efficacité dans des tâches complexes, et l'intégration de modèles vision-langage (VLMs) a permis d'équiper les modèles d'incorporation de capacités à suivre des instructions. Cependant, les modèles d'incorporation existants manquent de capacités visuelles interactives pour spécifier des régions d'intérêt définies par les utilisateurs (par exemple, point, boîte englobante, masque), qui ont été explorées dans les modèles génératifs pour élargir leur applicabilité interactive avec les humains. Doté les modèles d'incorporation d'interactions visuelles non seulement débloquerait de nouvelles applications avec un ancrage localisé de l'intention de l'utilisateur, qui reste inexploré, mais permettrait également aux modèles d'apprendre des informations au niveau des entités dans les images pour compléter leurs représentations globales dans les tâches d'incorporation conventionnelles. Dans cet article, nous proposons un nouveau Visual-InteRactive Text-Image Universal Embedder (VIRTUE) qui étend les capacités du modèle de segmentation et du modèle vision-langage au domaine de l'apprentissage de représentation. Dans VIRTUE, le modèle de segmentation peut traiter des invites visuelles qui identifient des régions spécifiques dans une image, permettant ainsi à l'incorporateur de gérer des scénarios complexes et ambigus avec plus de précision. Pour évaluer la capacité d'interaction visuelle de VIRTUE, nous introduisons un benchmark à grande échelle de Segmentation-and-Scene Caption Retrieval (SCaR) comprenant 1 million d'échantillons, visant à récupérer la légende textuelle en considérant conjointement l'entité avec un objet spécifique et la scène de l'image. VIRTUE atteint systématiquement des performances de pointe avec des améliorations significatives dans 36 tâches universelles MMEB (3,1%-8,5%) et cinq tâches SCaR interactives visuelles (15,2%-20,3%).
English
Multimodal representation learning models have demonstrated successful
operation across complex tasks, and the integration of vision-language models
(VLMs) has further enabled embedding models with instruction-following
capabilities. However, existing embedding models lack visual-interactive
capabilities to specify regions of interest from users (e.g., point, bounding
box, mask), which have been explored in generative models to broaden their
human-interactive applicability. Equipping embedding models with visual
interactions not only would unlock new applications with localized grounding of
user intent, which remains unexplored, but also enable the models to learn
entity-level information within images to complement their global
representations for conventional embedding tasks. In this paper, we propose a
novel Visual-InteRactive Text-Image Universal Embedder (VIRTUE) that extends
the capabilities of the segmentation model and the vision-language model to the
realm of representation learning. In VIRTUE, the segmentation model can process
visual prompts that pinpoint specific regions within an image, thereby enabling
the embedder to handle complex and ambiguous scenarios more precisely. To
evaluate the visual-interaction ability of VIRTUE, we introduce a large-scale
Segmentation-and-Scene Caption Retrieval (SCaR) benchmark comprising 1M samples
that aims to retrieve the text caption by jointly considering the entity with a
specific object and image scene. VIRTUE consistently achieves a
state-of-the-art performance with significant improvements across 36 universal
MMEB (3.1%-8.5%) and five visual-interactive SCaR (15.2%-20.3%) tasks.