ChatPaper.aiChatPaper

VIRTUE: Visuell-interaktiver Text-Bild-Universaleinbettungscode

VIRTUE: Visual-Interactive Text-Image Universal Embedder

October 1, 2025
papers.authors: Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji
cs.AI

papers.abstract

Multimodale Repräsentationslernmodelle haben sich bei komplexen Aufgaben als erfolgreich erwiesen, und die Integration von Vision-Sprache-Modellen (VLMs) hat es ermöglicht, Embedding-Modelle mit Befolgung von Anweisungen auszustatten. Allerdings fehlen bestehenden Embedding-Modellen visuell-interaktive Fähigkeiten, um Benutzerinteressenbereiche (z. B. Punkt, Begrenzungsrahmen, Maske) zu spezifizieren, die in generativen Modellen erforscht wurden, um deren menschlich-interaktive Anwendbarkeit zu erweitern. Die Ausstattung von Embedding-Modellen mit visuellen Interaktionen würde nicht nur neue Anwendungen mit lokalisierter Verankerung von Benutzerabsichten freischalten, die bisher unerforscht geblieben sind, sondern es den Modellen auch ermöglichen, Entitätsinformationen innerhalb von Bildern zu lernen, um ihre globalen Repräsentationen für konventionelle Embedding-Aufgaben zu ergänzen. In diesem Artikel schlagen wir einen neuartigen Visual-InteRactive Text-Image Universal Embedder (VIRTUE) vor, der die Fähigkeiten des Segmentierungsmodells und des Vision-Sprache-Modells auf den Bereich des Repräsentationslernens ausdehnt. In VIRTUE kann das Segmentierungsmodell visuelle Eingaben verarbeiten, die spezifische Bereiche innerhalb eines Bilds kennzeichnen, wodurch der Embedder komplexe und mehrdeutige Szenarien präziser handhaben kann. Um die visuell-interaktive Fähigkeit von VIRTUE zu bewerten, führen wir einen groß angelegten Segmentation-and-Scene Caption Retrieval (SCaR) Benchmark ein, der 1M Proben umfasst und darauf abzielt, die Textbeschreibung durch gemeinsame Berücksichtigung der Entität mit einem spezifischen Objekt und Bildszene abzurufen. VIRTUE erzielt durchweg eine state-of-the-art Leistung mit signifikanten Verbesserungen über 36 universelle MMEB (3,1%-8,5%) und fünf visuell-interaktive SCaR (15,2%-20,3%) Aufgaben hinweg.
English
Multimodal representation learning models have demonstrated successful operation across complex tasks, and the integration of vision-language models (VLMs) has further enabled embedding models with instruction-following capabilities. However, existing embedding models lack visual-interactive capabilities to specify regions of interest from users (e.g., point, bounding box, mask), which have been explored in generative models to broaden their human-interactive applicability. Equipping embedding models with visual interactions not only would unlock new applications with localized grounding of user intent, which remains unexplored, but also enable the models to learn entity-level information within images to complement their global representations for conventional embedding tasks. In this paper, we propose a novel Visual-InteRactive Text-Image Universal Embedder (VIRTUE) that extends the capabilities of the segmentation model and the vision-language model to the realm of representation learning. In VIRTUE, the segmentation model can process visual prompts that pinpoint specific regions within an image, thereby enabling the embedder to handle complex and ambiguous scenarios more precisely. To evaluate the visual-interaction ability of VIRTUE, we introduce a large-scale Segmentation-and-Scene Caption Retrieval (SCaR) benchmark comprising 1M samples that aims to retrieve the text caption by jointly considering the entity with a specific object and image scene. VIRTUE consistently achieves a state-of-the-art performance with significant improvements across 36 universal MMEB (3.1%-8.5%) and five visual-interactive SCaR (15.2%-20.3%) tasks.
PDF62October 3, 2025