ObjEmbed: Hacia Incrustaciones de Objetos Multimodales Universales
ObjEmbed: Towards Universal Multimodal Object Embeddings
February 2, 2026
Autores: Shenghao Fu, Yukun Su, Fengyun Rao, Jing Lyu, Xiaohua Xie, Wei-Shi Zheng
cs.AI
Resumen
Alinear objetos con descripciones textuales correspondientes es un desafío fundamental y un requisito realista en la comprensión visión-lenguaje. Si bien los modelos recientes de incrustación multimodal sobresalen en la alineación global imagen-texto, a menudo luchan con la alineación de grano fino entre regiones de la imagen y frases específicas. En este trabajo, presentamos ObjEmbed, un novedoso modelo de incrustación MLLM que descompone la imagen de entrada en múltiples incrustaciones regionales, cada una correspondiente a un objeto individual, junto con incrustaciones globales. Soporta una amplia gama de tareas de comprensión visual como *visual grounding*, recuperación de imágenes locales y recuperación de imágenes globales. ObjEmbed posee tres propiedades clave: (1) Representación Orientada a Objetos: Captura tanto aspectos semánticos como espaciales de los objetos generando dos incrustaciones complementarias para cada región: una incrustación de objeto para correspondencia semántica y una incrustación IoU que predice la calidad de la localización. La puntuación final de correspondencia de objetos combina la similitud semántica con el IoU predicho, permitiendo una recuperación más precisa. (2) Versatilidad: Maneja sin problemas tanto tareas a nivel de región como a nivel de imagen. (3) Codificación Eficiente: Todos los objetos en una imagen, junto con la imagen completa, se codifican en una sola pasada hacia adelante para lograr alta eficiencia. Un rendimiento superior en 18 benchmarks diversos demuestra su fuerte discriminación semántica.
English
Aligning objects with corresponding textual descriptions is a fundamental challenge and a realistic requirement in vision-language understanding. While recent multimodal embedding models excel at global image-text alignment, they often struggle with fine-grained alignment between image regions and specific phrases. In this work, we present ObjEmbed, a novel MLLM embedding model that decomposes the input image into multiple regional embeddings, each corresponding to an individual object, along with global embeddings. It supports a wide range of visual understanding tasks like visual grounding, local image retrieval, and global image retrieval. ObjEmbed enjoys three key properties: (1) Object-Oriented Representation: It captures both semantic and spatial aspects of objects by generating two complementary embeddings for each region: an object embedding for semantic matching and an IoU embedding that predicts localization quality. The final object matching score combines semantic similarity with the predicted IoU, enabling more accurate retrieval. (2) Versatility: It seamlessly handles both region-level and image-level tasks. (3) Efficient Encoding: All objects in an image, along with the full image, are encoded in a single forward pass for high efficiency. Superior performance on 18 diverse benchmarks demonstrates its strong semantic discrimination.