VIRTUE: Визуально-интерактивный универсальный эмбеддер для текста и изображений
VIRTUE: Visual-Interactive Text-Image Universal Embedder
October 1, 2025
Авторы: Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji
cs.AI
Аннотация
Модели мультимодального обучения представлений продемонстрировали успешную работу в сложных задачах, а интеграция моделей "визуальный язык" (VLMs) позволила встроить в модели возможности следования инструкциям. Однако существующие модели встраивания лишены визуально-интерактивных возможностей для указания пользователями областей интереса (например, точка, ограничивающий прямоугольник, маска), которые были исследованы в генеративных моделях для расширения их применимости в интерактивных сценариях. Оснащение моделей встраивания визуальными взаимодействиями не только открыло бы новые приложения с локализованным учетом намерений пользователя, что остается неисследованным, но и позволило бы моделям изучать информацию на уровне объектов в изображениях, дополняя их глобальные представления для традиционных задач встраивания. В данной работе мы предлагаем новую модель Visual-InteRactive Text-Image Universal Embedder (VIRTUE), которая расширяет возможности модели сегментации и модели "визуальный язык" в область обучения представлений. В VIRTUE модель сегментации может обрабатывать визуальные подсказки, указывающие на конкретные области изображения, что позволяет встраивателю более точно справляться со сложными и неоднозначными сценариями. Для оценки визуально-интерактивных способностей VIRTUE мы представляем крупномасштабный бенчмарк Segmentation-and-Scene Caption Retrieval (SCaR), состоящий из 1 миллиона образцов, который направлен на извлечение текстового описания с учетом как конкретного объекта, так и сцены изображения. VIRTUE демонстрирует стабильно передовые результаты с существенными улучшениями в 36 универсальных задачах MMEB (3,1%-8,5%) и пяти визуально-интерактивных задачах SCaR (15,2%-20,3%).
English
Multimodal representation learning models have demonstrated successful
operation across complex tasks, and the integration of vision-language models
(VLMs) has further enabled embedding models with instruction-following
capabilities. However, existing embedding models lack visual-interactive
capabilities to specify regions of interest from users (e.g., point, bounding
box, mask), which have been explored in generative models to broaden their
human-interactive applicability. Equipping embedding models with visual
interactions not only would unlock new applications with localized grounding of
user intent, which remains unexplored, but also enable the models to learn
entity-level information within images to complement their global
representations for conventional embedding tasks. In this paper, we propose a
novel Visual-InteRactive Text-Image Universal Embedder (VIRTUE) that extends
the capabilities of the segmentation model and the vision-language model to the
realm of representation learning. In VIRTUE, the segmentation model can process
visual prompts that pinpoint specific regions within an image, thereby enabling
the embedder to handle complex and ambiguous scenarios more precisely. To
evaluate the visual-interaction ability of VIRTUE, we introduce a large-scale
Segmentation-and-Scene Caption Retrieval (SCaR) benchmark comprising 1M samples
that aims to retrieve the text caption by jointly considering the entity with a
specific object and image scene. VIRTUE consistently achieves a
state-of-the-art performance with significant improvements across 36 universal
MMEB (3.1%-8.5%) and five visual-interactive SCaR (15.2%-20.3%) tasks.