ChatPaper.aiChatPaper

VIRTUE: Incorporatore Universale Testo-Immagine Visuale-Interattivo

VIRTUE: Visual-Interactive Text-Image Universal Embedder

October 1, 2025
Autori: Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji
cs.AI

Abstract

I modelli di apprendimento di rappresentazioni multimodali hanno dimostrato un funzionamento efficace in compiti complessi, e l'integrazione di modelli visione-linguaggio (VLMs) ha ulteriormente abilitato i modelli di embedding con capacità di seguire istruzioni. Tuttavia, i modelli di embedding esistenti mancano di capacità visivo-interattive per specificare regioni di interesse da parte degli utenti (ad esempio, punto, bounding box, maschera), che sono state esplorate nei modelli generativi per ampliare la loro applicabilità interattiva umana. Dotare i modelli di embedding di interazioni visive non solo sbloccherebbe nuove applicazioni con un ancoraggio localizzato dell'intento dell'utente, che rimane inesplorato, ma consentirebbe anche ai modelli di apprendere informazioni a livello di entità all'interno delle immagini per integrare le loro rappresentazioni globali nei compiti di embedding convenzionali. In questo articolo, proponiamo un nuovo Visual-InteRactive Text-Image Universal Embedder (VIRTUE) che estende le capacità del modello di segmentazione e del modello visione-linguaggio al campo dell'apprendimento di rappresentazioni. In VIRTUE, il modello di segmentazione può elaborare prompt visivi che individuano regioni specifiche all'interno di un'immagine, consentendo così all'embedder di gestire scenari complessi e ambigui con maggiore precisione. Per valutare la capacità visivo-interattiva di VIRTUE, introduciamo un benchmark su larga scala di Segmentazione e Recupero di Didascalie di Scene (SCaR) composto da 1 milione di campioni che mira a recuperare la didascalia testuale considerando congiuntamente l'entità con un oggetto specifico e la scena dell'immagine. VIRTUE raggiunge costantemente prestazioni all'avanguardia con miglioramenti significativi in 36 task universali MMEB (3,1%-8,5%) e cinque task visivo-interattivi SCaR (15,2%-20,3%).
English
Multimodal representation learning models have demonstrated successful operation across complex tasks, and the integration of vision-language models (VLMs) has further enabled embedding models with instruction-following capabilities. However, existing embedding models lack visual-interactive capabilities to specify regions of interest from users (e.g., point, bounding box, mask), which have been explored in generative models to broaden their human-interactive applicability. Equipping embedding models with visual interactions not only would unlock new applications with localized grounding of user intent, which remains unexplored, but also enable the models to learn entity-level information within images to complement their global representations for conventional embedding tasks. In this paper, we propose a novel Visual-InteRactive Text-Image Universal Embedder (VIRTUE) that extends the capabilities of the segmentation model and the vision-language model to the realm of representation learning. In VIRTUE, the segmentation model can process visual prompts that pinpoint specific regions within an image, thereby enabling the embedder to handle complex and ambiguous scenarios more precisely. To evaluate the visual-interaction ability of VIRTUE, we introduce a large-scale Segmentation-and-Scene Caption Retrieval (SCaR) benchmark comprising 1M samples that aims to retrieve the text caption by jointly considering the entity with a specific object and image scene. VIRTUE consistently achieves a state-of-the-art performance with significant improvements across 36 universal MMEB (3.1%-8.5%) and five visual-interactive SCaR (15.2%-20.3%) tasks.
PDF62October 3, 2025