VIRTUE: Incorporador Universal Texto-Imagem Visual-Interativo
VIRTUE: Visual-Interactive Text-Image Universal Embedder
October 1, 2025
Autores: Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji
cs.AI
Resumo
Modelos de aprendizado de representação multimodal têm demonstrado operação bem-sucedida em tarefas complexas, e a integração de modelos de visão e linguagem (VLMs) permitiu que modelos de embedding adquirissem capacidades de seguir instruções. No entanto, os modelos de embedding existentes carecem de capacidades visuais interativas para especificar regiões de interesse dos usuários (por exemplo, ponto, caixa delimitadora, máscara), que foram exploradas em modelos generativos para ampliar sua aplicabilidade interativa com humanos. Equipar modelos de embedding com interações visuais não apenas desbloquearia novas aplicações com a fundamentação localizada da intenção do usuário, que permanece inexplorada, mas também permitiria que os modelos aprendessem informações em nível de entidade dentro das imagens para complementar suas representações globais em tarefas convencionais de embedding. Neste artigo, propomos um novo Visual-InteRactive Text-Image Universal Embedder (VIRTUE) que estende as capacidades do modelo de segmentação e do modelo de visão e linguagem para o domínio do aprendizado de representação. No VIRTUE, o modelo de segmentação pode processar prompts visuais que identificam regiões específicas dentro de uma imagem, permitindo que o embedder lide com cenários complexos e ambíguos de forma mais precisa. Para avaliar a capacidade de interação visual do VIRTUE, introduzimos um benchmark em larga escala de Segmentação e Recuperação de Legenda de Cena (SCaR) composto por 1 milhão de amostras, que visa recuperar a legenda de texto considerando conjuntamente a entidade com um objeto específico e a cena da imagem. O VIRTUE consistentemente alcança um desempenho de última geração com melhorias significativas em 36 tarefas universais MMEB (3,1%-8,5%) e cinco tarefas SCaR visuais interativas (15,2%-20,3%).
English
Multimodal representation learning models have demonstrated successful
operation across complex tasks, and the integration of vision-language models
(VLMs) has further enabled embedding models with instruction-following
capabilities. However, existing embedding models lack visual-interactive
capabilities to specify regions of interest from users (e.g., point, bounding
box, mask), which have been explored in generative models to broaden their
human-interactive applicability. Equipping embedding models with visual
interactions not only would unlock new applications with localized grounding of
user intent, which remains unexplored, but also enable the models to learn
entity-level information within images to complement their global
representations for conventional embedding tasks. In this paper, we propose a
novel Visual-InteRactive Text-Image Universal Embedder (VIRTUE) that extends
the capabilities of the segmentation model and the vision-language model to the
realm of representation learning. In VIRTUE, the segmentation model can process
visual prompts that pinpoint specific regions within an image, thereby enabling
the embedder to handle complex and ambiguous scenarios more precisely. To
evaluate the visual-interaction ability of VIRTUE, we introduce a large-scale
Segmentation-and-Scene Caption Retrieval (SCaR) benchmark comprising 1M samples
that aims to retrieve the text caption by jointly considering the entity with a
specific object and image scene. VIRTUE consistently achieves a
state-of-the-art performance with significant improvements across 36 universal
MMEB (3.1%-8.5%) and five visual-interactive SCaR (15.2%-20.3%) tasks.