ObjEmbed: в поисках универсальных мультимодальных объектных эмбеддингов
ObjEmbed: Towards Universal Multimodal Object Embeddings
February 2, 2026
Авторы: Shenghao Fu, Yukun Su, Fengyun Rao, Jing Lyu, Xiaohua Xie, Wei-Shi Zheng
cs.AI
Аннотация
Сопоставление объектов с соответствующими текстовыми описаниями является фундаментальной задачей и практическим требованием в области понимания визуально-языковых данных. Хотя современные мультимодальные модели эмбеддингов преуспевают в глобальном согласовании изображений и текстов, они часто испытывают трудности с тонким сопоставлением между областями изображения и конкретными фразами. В данной работе мы представляем ObjEmbed — новую модель эмбеддинга MLLM, которая декомпозирует входное изображение на множественные региональные эмбеддинги, каждый из которых соответствует отдельному объекту, вместе с глобальными эмбеддингами. Она поддерживает широкий спектр задач визуального понимания, таких как визуальное позиционирование, локальный поиск изображений и глобальный поиск изображений. ObjEmbed обладает тремя ключевыми свойствами: (1) **Объектно-ориентированное представление**: Модель захватывает как семантические, так и пространственные аспекты объектов, генерируя два взаимодополняющих эмбеддинга для каждой области: эмбеддинг объекта для семантического сопоставления и эмбеддинг IoU, который предсказывает качество локализации. Итоговый показатель соответствия объекта комбинирует семантическое сходство с предсказанным IoU, что позволяет осуществлять более точный поиск. (2) **Универсальность**: Модель единообразно обрабатывает как задачи на уровне регионов, так и на уровне всего изображения. (3) **Эффективное кодирование**: Все объекты на изображении, вместе с полным изображением, кодируются за один прямой проход для обеспечения высокой эффективности. Превосходная производительность на 18 разнообразных бенчмарках демонстрирует её высокую семантическую различительную способность.
English
Aligning objects with corresponding textual descriptions is a fundamental challenge and a realistic requirement in vision-language understanding. While recent multimodal embedding models excel at global image-text alignment, they often struggle with fine-grained alignment between image regions and specific phrases. In this work, we present ObjEmbed, a novel MLLM embedding model that decomposes the input image into multiple regional embeddings, each corresponding to an individual object, along with global embeddings. It supports a wide range of visual understanding tasks like visual grounding, local image retrieval, and global image retrieval. ObjEmbed enjoys three key properties: (1) Object-Oriented Representation: It captures both semantic and spatial aspects of objects by generating two complementary embeddings for each region: an object embedding for semantic matching and an IoU embedding that predicts localization quality. The final object matching score combines semantic similarity with the predicted IoU, enabling more accurate retrieval. (2) Versatility: It seamlessly handles both region-level and image-level tasks. (3) Efficient Encoding: All objects in an image, along with the full image, are encoded in a single forward pass for high efficiency. Superior performance on 18 diverse benchmarks demonstrates its strong semantic discrimination.