ObjEmbed: Auf dem Weg zu universellen multimodalen Objekteinbettungen
ObjEmbed: Towards Universal Multimodal Object Embeddings
February 2, 2026
papers.authors: Shenghao Fu, Yukun Su, Fengyun Rao, Jing Lyu, Xiaohua Xie, Wei-Shi Zheng
cs.AI
papers.abstract
Die Ausrichtung von Objekten mit entsprechenden textuellen Beschreibungen ist eine grundlegende Herausforderung und eine realistische Anforderung im Bereich des visuell-sprachlichen Verständnisses. Während aktuelle multimodale Einbettungsmodelle bei der globalen Bild-Text-Ausrichtung hervorragende Ergebnisse erzielen, haben sie oft Schwierigkeiten mit der feinkörnigen Ausrichtung zwischen Bildregionen und spezifischen Phrasen. In dieser Arbeit stellen wir ObjEmbed vor, ein neuartiges MLLM-Einbettungsmodell, das das Eingabebild in mehrere regionale Einbettungen zerlegt, die jeweils einem einzelnen Objekt entsprechen, zusammen mit globalen Einbettungen. Es unterstützt eine breite Palette visueller Verständnisaufgaben wie visuelle Verankerung, lokale Bildretrieval und globales Bildretrieval. ObjEmbed zeichnet sich durch drei Schlüsseleigenschaften aus: (1) Objektorientierte Repräsentation: Es erfasst sowohl semantische als auch räumliche Aspekte von Objekten, indem es zwei komplementäre Einbettungen für jede Region erzeugt: eine Objekteinbettung für semantisches Matching und eine IoU-Einbettung, die die Lokalisierungsqualität vorhersagt. Der endgültige Objekt-Matching-Score kombiniert semantische Ähnlichkeit mit dem vorhergesagten IoU und ermöglicht so eine genauere Wiederauffindbarkeit. (2) Vielseitigkeit: Es bewältigt nahtlos sowohl regions- als auch bildbezogene Aufgaben. (3) Effiziente Kodierung: Alle Objekte in einem Bild werden zusammen mit dem Vollbild in einem einzigen Vorwärtsdurchlauf kodiert, was hohe Effizienz gewährleistet. Eine überlegene Leistung in 18 diversen Benchmarks demonstriert seine starke semantische Diskriminationsfähigkeit.
English
Aligning objects with corresponding textual descriptions is a fundamental challenge and a realistic requirement in vision-language understanding. While recent multimodal embedding models excel at global image-text alignment, they often struggle with fine-grained alignment between image regions and specific phrases. In this work, we present ObjEmbed, a novel MLLM embedding model that decomposes the input image into multiple regional embeddings, each corresponding to an individual object, along with global embeddings. It supports a wide range of visual understanding tasks like visual grounding, local image retrieval, and global image retrieval. ObjEmbed enjoys three key properties: (1) Object-Oriented Representation: It captures both semantic and spatial aspects of objects by generating two complementary embeddings for each region: an object embedding for semantic matching and an IoU embedding that predicts localization quality. The final object matching score combines semantic similarity with the predicted IoU, enabling more accurate retrieval. (2) Versatility: It seamlessly handles both region-level and image-level tasks. (3) Efficient Encoding: All objects in an image, along with the full image, are encoded in a single forward pass for high efficiency. Superior performance on 18 diverse benchmarks demonstrates its strong semantic discrimination.