ChatPaper.aiChatPaper

ObjEmbed: Op weg naar universele multimodale object-embeddings

ObjEmbed: Towards Universal Multimodal Object Embeddings

February 2, 2026
Auteurs: Shenghao Fu, Yukun Su, Fengyun Rao, Jing Lyu, Xiaohua Xie, Wei-Shi Zheng
cs.AI

Samenvatting

Het afstemmen van objecten op bijbehorende tekstuele beschrijvingen is een fundamentele uitdaging en een realistische vereiste in visueel-taalkundig begrip. Hoewel recente multimodale inbeddingsmodellen uitblinken in globale beeld-tekst-afstemming, hebben ze vaak moeite met fijnmazige afstemming tussen beeldregio's en specifieke zinsdelen. In dit werk presenteren we ObjEmbed, een nieuw MLLM-inbeddingsmodel dat het invoerbeeld ontleedt in meerdere regionale inbeddingen, elk corresponderend met een individueel object, samen met globale inbeddingen. Het ondersteunt een breed scala aan visuele begriptaken zoals visuele verankering, lokale beeldretrieval en globale beeldretrieval. ObjEmbed beschikt over drie belangrijke eigenschappen: (1) Objectgeoriënteerde representatie: Het vangt zowel semantische als ruimtelijke aspecten van objecten door twee complementaire inbeddingen voor elke regio te genereren: een objectinbedding voor semantische matching en een IoU-inbedding die de localisatiekwaliteit voorspelt. De uiteindelijke objectmatchingscore combineert semantische gelijkenis met de voorspelde IoU, wat nauwkeurigere retrieval mogelijk maakt. (2) Veelzijdigheid: Het verwerkt naadloos zowel regioniveau- als beeldniveautaken. (3) Efficiënte codering: Alle objecten in een beeld, samen met het volledige beeld, worden in één voorwaartse passage gecodeerd voor hoge efficiëntie. Superieure prestaties op 18 diverse benchmarks demonstreren zijn sterke semantische discriminatie.
English
Aligning objects with corresponding textual descriptions is a fundamental challenge and a realistic requirement in vision-language understanding. While recent multimodal embedding models excel at global image-text alignment, they often struggle with fine-grained alignment between image regions and specific phrases. In this work, we present ObjEmbed, a novel MLLM embedding model that decomposes the input image into multiple regional embeddings, each corresponding to an individual object, along with global embeddings. It supports a wide range of visual understanding tasks like visual grounding, local image retrieval, and global image retrieval. ObjEmbed enjoys three key properties: (1) Object-Oriented Representation: It captures both semantic and spatial aspects of objects by generating two complementary embeddings for each region: an object embedding for semantic matching and an IoU embedding that predicts localization quality. The final object matching score combines semantic similarity with the predicted IoU, enabling more accurate retrieval. (2) Versatility: It seamlessly handles both region-level and image-level tasks. (3) Efficient Encoding: All objects in an image, along with the full image, are encoded in a single forward pass for high efficiency. Superior performance on 18 diverse benchmarks demonstrates its strong semantic discrimination.
PDF41February 5, 2026