VIRTUE: Incrustador Universal Visual-Interactivo de Texto e Imagen

Resumen

Los modelos de aprendizaje de representaciones multimodales han demostrado un funcionamiento exitoso en tareas complejas, y la integración de modelos de visión y lenguaje (VLMs, por sus siglas en inglés) ha permitido dotar a los modelos de embedding con capacidades de seguimiento de instrucciones. Sin embargo, los modelos de embedding existentes carecen de capacidades visual-interactivas para especificar regiones de interés por parte de los usuarios (por ejemplo, puntos, cuadros delimitadores, máscaras), las cuales han sido exploradas en modelos generativos para ampliar su aplicabilidad en interacciones humanas. Dotar a los modelos de embedding con interacciones visuales no solo desbloquearía nuevas aplicaciones con una localización precisa de la intención del usuario, un aspecto aún inexplorado, sino que también permitiría a los modelos aprender información a nivel de entidades dentro de las imágenes, complementando sus representaciones globales para tareas convencionales de embedding. En este artículo, proponemos un nuevo Visual-InteRactive Text-Image Universal Embedder (VIRTUE) que extiende las capacidades del modelo de segmentación y del modelo de visión y lenguaje al ámbito del aprendizaje de representaciones. En VIRTUE, el modelo de segmentación puede procesar indicaciones visuales que señalan regiones específicas dentro de una imagen, permitiendo así que el embedder maneje escenarios complejos y ambiguos con mayor precisión. Para evaluar la capacidad de interacción visual de VIRTUE, introducimos un benchmark a gran escala de Segmentación y Recuperación de Descripciones de Escenas (SCaR, por sus siglas en inglés) que consta de 1 millón de muestras y tiene como objetivo recuperar la descripción textual considerando conjuntamente la entidad de un objeto específico y la escena de la imagen. VIRTUE logra consistentemente un rendimiento de vanguardia con mejoras significativas en 36 tareas universales de MMEB (3.1%-8.5%) y cinco tareas visual-interactivas de SCaR (15.2%-20.3%).

English

Multimodal representation learning models have demonstrated successful operation across complex tasks, and the integration of vision-language models (VLMs) has further enabled embedding models with instruction-following capabilities. However, existing embedding models lack visual-interactive capabilities to specify regions of interest from users (e.g., point, bounding box, mask), which have been explored in generative models to broaden their human-interactive applicability. Equipping embedding models with visual interactions not only would unlock new applications with localized grounding of user intent, which remains unexplored, but also enable the models to learn entity-level information within images to complement their global representations for conventional embedding tasks. In this paper, we propose a novel Visual-InteRactive Text-Image Universal Embedder (VIRTUE) that extends the capabilities of the segmentation model and the vision-language model to the realm of representation learning. In VIRTUE, the segmentation model can process visual prompts that pinpoint specific regions within an image, thereby enabling the embedder to handle complex and ambiguous scenarios more precisely. To evaluate the visual-interaction ability of VIRTUE, we introduce a large-scale Segmentation-and-Scene Caption Retrieval (SCaR) benchmark comprising 1M samples that aims to retrieve the text caption by jointly considering the entity with a specific object and image scene. VIRTUE consistently achieves a state-of-the-art performance with significant improvements across 36 universal MMEB (3.1%-8.5%) and five visual-interactive SCaR (15.2%-20.3%) tasks.

VIRTUE: Incrustador Universal Visual-Interactivo de Texto e Imagen

VIRTUE: Visual-Interactive Text-Image Universal Embedder

Resumen

Support