ObjEmbed: Verso Embedding Universali di Oggetti Multimodali

Abstract

L'allineamento di oggetti con le corrispondenti descrizioni testuali è una sfida fondamentale e un requisito realistico nella comprensione visivo-linguistica. Sebbene i recenti modelli di embedding multimodali eccellano nell'allineamento globale immagine-testo, spesso faticano con l'allineamento granulare tra regioni dell'immagine e frasi specifiche. In questo lavoro, presentiamo ObjEmbed, un innovativo modello di embedding MLLM che scompone l'immagine di input in più embedding regionali, ciascuno corrispondente a un singolo oggetto, insieme a embedding globali. Supporta un'ampia gamma di compiti di comprensione visiva come il grounding visivo, il retrieval di immagini locali e il retrieval di immagini globali. ObjEmbed possiede tre proprietà chiave: (1) Rappresentazione Orientata agli Oggetti: Cattura sia gli aspetti semantici che spaziali degli oggetti generando due embedding complementari per ogni regione: un embedding d'oggetto per il matching semantico e un embedding IoU che predice la qualità della localizzazione. Il punteggio finale di matching dell'oggetto combina la similarità semantica con l'IoU predetto, consentendo un retrieval più accurato. (2) Versatilità: Gestisce senza soluzione di continuità sia compiti a livello di regione che a livello di immagine. (3) Codifica Efficiente: Tutti gli oggetti in un'immagine, insieme all'immagine completa, vengono codificati in un singolo passaggio in avanti per un'elevata efficienza. Le prestazioni superiori su 18 benchmark diversificati ne dimostrano la forte discriminazione semantica.

English

Aligning objects with corresponding textual descriptions is a fundamental challenge and a realistic requirement in vision-language understanding. While recent multimodal embedding models excel at global image-text alignment, they often struggle with fine-grained alignment between image regions and specific phrases. In this work, we present ObjEmbed, a novel MLLM embedding model that decomposes the input image into multiple regional embeddings, each corresponding to an individual object, along with global embeddings. It supports a wide range of visual understanding tasks like visual grounding, local image retrieval, and global image retrieval. ObjEmbed enjoys three key properties: (1) Object-Oriented Representation: It captures both semantic and spatial aspects of objects by generating two complementary embeddings for each region: an object embedding for semantic matching and an IoU embedding that predicts localization quality. The final object matching score combines semantic similarity with the predicted IoU, enabling more accurate retrieval. (2) Versatility: It seamlessly handles both region-level and image-level tasks. (3) Efficient Encoding: All objects in an image, along with the full image, are encoded in a single forward pass for high efficiency. Superior performance on 18 diverse benchmarks demonstrates its strong semantic discrimination.