ChatPaper.aiChatPaper

ObjEmbed : Vers des plongements d'objets multimodaux universels

ObjEmbed: Towards Universal Multimodal Object Embeddings

February 2, 2026
papers.authors: Shenghao Fu, Yukun Su, Fengyun Rao, Jing Lyu, Xiaohua Xie, Wei-Shi Zheng
cs.AI

papers.abstract

L'alignement d'objets avec leurs descriptions textuelles correspondantes est un défi fondamental et une exigence réaliste dans la compréhension vision-langage. Bien que les modèles d'embedding multimodaux récents excellent dans l'alignement global image-texte, ils peinent souvent avec l'alignement fin entre les régions de l'image et des phrases spécifiques. Dans ce travail, nous présentons ObjEmbed, un nouveau modèle d'embedding MLLM qui décompose l'image d'entrée en plusieurs embeddings régionaux, chacun correspondant à un objet individuel, ainsi que des embeddings globaux. Il prend en charge un large éventail de tâches de compréhension visuelle comme l'ancrage visuel, la recherche d'images locales et la recherche d'images globale. ObjEmbed possède trois propriétés clés : (1) Représentation orientée objet : Il capture à la fois les aspects sémantiques et spatiaux des objets en générant deux embeddings complémentaires pour chaque région : un embedding d'objet pour l'appariement sémantique et un embedding IoU qui prédit la qualité de localisation. Le score d'appariement final combine la similarité sémantique avec l'IoU prédite, permettant une recherche plus précise. (2) Polyvalence : Il gère de manière transparente les tâches au niveau de la région et au niveau de l'image. (3) Encodage efficace : Tous les objets d'une image, ainsi que l'image complète, sont encodés en une seule passe avant pour une haute efficacité. Des performances supérieures sur 18 benchmarks diversifiés démontrent sa forte discrimination sémantique.
English
Aligning objects with corresponding textual descriptions is a fundamental challenge and a realistic requirement in vision-language understanding. While recent multimodal embedding models excel at global image-text alignment, they often struggle with fine-grained alignment between image regions and specific phrases. In this work, we present ObjEmbed, a novel MLLM embedding model that decomposes the input image into multiple regional embeddings, each corresponding to an individual object, along with global embeddings. It supports a wide range of visual understanding tasks like visual grounding, local image retrieval, and global image retrieval. ObjEmbed enjoys three key properties: (1) Object-Oriented Representation: It captures both semantic and spatial aspects of objects by generating two complementary embeddings for each region: an object embedding for semantic matching and an IoU embedding that predicts localization quality. The final object matching score combines semantic similarity with the predicted IoU, enabling more accurate retrieval. (2) Versatility: It seamlessly handles both region-level and image-level tasks. (3) Efficient Encoding: All objects in an image, along with the full image, are encoded in a single forward pass for high efficiency. Superior performance on 18 diverse benchmarks demonstrates its strong semantic discrimination.
PDF41February 5, 2026