ChatPaper.aiChatPaper

VIRTUE: Visueel-Interactieve Tekst-Afbeelding Universele Embedder

VIRTUE: Visual-Interactive Text-Image Universal Embedder

October 1, 2025
Auteurs: Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji
cs.AI

Samenvatting

Multimodale representatieleermodellen hebben succesvolle werking aangetoond bij complexe taken, en de integratie van visie-taalmodelen (VLMs) heeft embedmodellen verder in staat gesteld met instructievolgcapaciteiten. Bestaande embedmodellen missen echter visueel-interactieve mogelijkheden om interessegebieden van gebruikers te specificeren (bijvoorbeeld punt, begrenzingskader, masker), wat in generatieve modellen is onderzocht om hun mens-interactieve toepasbaarheid te verbreden. Het uitrusten van embedmodellen met visuele interacties zou niet alleen nieuwe toepassingen mogelijk maken met gelokaliseerde verankering van gebruikersintentie, wat nog onontgonnen terrein is, maar zou de modellen ook in staat stellen om entiteitsniveau-informatie binnen afbeeldingen te leren om hun globale representaties aan te vullen voor conventionele embedtaken. In dit artikel stellen we een nieuwe Visual-InteRactive Text-Image Universal Embedder (VIRTUE) voor die de mogelijkheden van het segmentatiemodel en het visie-taalmodel uitbreidt naar het domein van representatieleren. In VIRTUE kan het segmentatiemodel visuele prompts verwerken die specifieke gebieden binnen een afbeelding aanwijzen, waardoor de embedder complexe en ambigue scenario's nauwkeuriger kan behandelen. Om de visueel-interactieve vaardigheid van VIRTUE te evalueren, introduceren we een grootschalige Segmentation-and-Scene Caption Retrieval (SCaR) benchmark bestaande uit 1M samples die als doel heeft de tekstbeschrijving te achterhalen door gezamenlijk rekening te houden met de entiteit met een specifiek object en de afbeeldingsscène. VIRTUE behaalt consistent state-of-the-art prestaties met significante verbeteringen over 36 universele MMEB (3,1%-8,5%) en vijf visueel-interactieve SCaR (15,2%-20,3%) taken.
English
Multimodal representation learning models have demonstrated successful operation across complex tasks, and the integration of vision-language models (VLMs) has further enabled embedding models with instruction-following capabilities. However, existing embedding models lack visual-interactive capabilities to specify regions of interest from users (e.g., point, bounding box, mask), which have been explored in generative models to broaden their human-interactive applicability. Equipping embedding models with visual interactions not only would unlock new applications with localized grounding of user intent, which remains unexplored, but also enable the models to learn entity-level information within images to complement their global representations for conventional embedding tasks. In this paper, we propose a novel Visual-InteRactive Text-Image Universal Embedder (VIRTUE) that extends the capabilities of the segmentation model and the vision-language model to the realm of representation learning. In VIRTUE, the segmentation model can process visual prompts that pinpoint specific regions within an image, thereby enabling the embedder to handle complex and ambiguous scenarios more precisely. To evaluate the visual-interaction ability of VIRTUE, we introduce a large-scale Segmentation-and-Scene Caption Retrieval (SCaR) benchmark comprising 1M samples that aims to retrieve the text caption by jointly considering the entity with a specific object and image scene. VIRTUE consistently achieves a state-of-the-art performance with significant improvements across 36 universal MMEB (3.1%-8.5%) and five visual-interactive SCaR (15.2%-20.3%) tasks.
PDF62October 3, 2025