VIRTUE: Incrustador Universal Visual-Interactivo de Texto e Imagen
VIRTUE: Visual-Interactive Text-Image Universal Embedder
October 1, 2025
Autores: Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji
cs.AI
Resumen
Los modelos de aprendizaje de representaciones multimodales han demostrado un funcionamiento exitoso en tareas complejas, y la integración de modelos de visión y lenguaje (VLMs, por sus siglas en inglés) ha permitido dotar a los modelos de embedding con capacidades de seguimiento de instrucciones. Sin embargo, los modelos de embedding existentes carecen de capacidades visual-interactivas para especificar regiones de interés por parte de los usuarios (por ejemplo, puntos, cuadros delimitadores, máscaras), las cuales han sido exploradas en modelos generativos para ampliar su aplicabilidad en interacciones humanas. Dotar a los modelos de embedding con interacciones visuales no solo desbloquearía nuevas aplicaciones con una localización precisa de la intención del usuario, un aspecto aún inexplorado, sino que también permitiría a los modelos aprender información a nivel de entidades dentro de las imágenes, complementando sus representaciones globales para tareas convencionales de embedding. En este artículo, proponemos un nuevo Visual-InteRactive Text-Image Universal Embedder (VIRTUE) que extiende las capacidades del modelo de segmentación y del modelo de visión y lenguaje al ámbito del aprendizaje de representaciones. En VIRTUE, el modelo de segmentación puede procesar indicaciones visuales que señalan regiones específicas dentro de una imagen, permitiendo así que el embedder maneje escenarios complejos y ambiguos con mayor precisión. Para evaluar la capacidad de interacción visual de VIRTUE, introducimos un benchmark a gran escala de Segmentación y Recuperación de Descripciones de Escenas (SCaR, por sus siglas en inglés) que consta de 1 millón de muestras y tiene como objetivo recuperar la descripción textual considerando conjuntamente la entidad de un objeto específico y la escena de la imagen. VIRTUE logra consistentemente un rendimiento de vanguardia con mejoras significativas en 36 tareas universales de MMEB (3.1%-8.5%) y cinco tareas visual-interactivas de SCaR (15.2%-20.3%).
English
Multimodal representation learning models have demonstrated successful
operation across complex tasks, and the integration of vision-language models
(VLMs) has further enabled embedding models with instruction-following
capabilities. However, existing embedding models lack visual-interactive
capabilities to specify regions of interest from users (e.g., point, bounding
box, mask), which have been explored in generative models to broaden their
human-interactive applicability. Equipping embedding models with visual
interactions not only would unlock new applications with localized grounding of
user intent, which remains unexplored, but also enable the models to learn
entity-level information within images to complement their global
representations for conventional embedding tasks. In this paper, we propose a
novel Visual-InteRactive Text-Image Universal Embedder (VIRTUE) that extends
the capabilities of the segmentation model and the vision-language model to the
realm of representation learning. In VIRTUE, the segmentation model can process
visual prompts that pinpoint specific regions within an image, thereby enabling
the embedder to handle complex and ambiguous scenarios more precisely. To
evaluate the visual-interaction ability of VIRTUE, we introduce a large-scale
Segmentation-and-Scene Caption Retrieval (SCaR) benchmark comprising 1M samples
that aims to retrieve the text caption by jointly considering the entity with a
specific object and image scene. VIRTUE consistently achieves a
state-of-the-art performance with significant improvements across 36 universal
MMEB (3.1%-8.5%) and five visual-interactive SCaR (15.2%-20.3%) tasks.