ObjEmbed: Rumo a Incorporações Universais de Objetos Multimodais

Resumo

Alinhar objetos com descrições textuais correspondentes é um desafio fundamental e uma necessidade realista na compreensão visão-linguagem. Embora os modelos recentes de incorporação multimodal se destaquem no alinhamento global imagem-texto, eles frequentemente lutam com o alinhamento de granularidade fina entre regiões da imagem e frases específicas. Neste trabalho, apresentamos o ObjEmbed, um novo modelo de incorporação MLLM que decompõe a imagem de entrada em múltiplas incorporações regionais, cada uma correspondendo a um objeto individual, juntamente com incorporações globais. Ele suporta uma ampla gama de tarefas de compreensão visual, como *visual grounding*, recuperação de imagens locais e recuperação de imagens globais. O ObjEmbed possui três propriedades principais: (1) Representação Orientada a Objetos: Captura aspectos semânticos e espaciais dos objetos gerando duas incorporações complementares para cada região: uma incorporação de objeto para correspondência semântica e uma incorporação IoU que prevê a qualidade de localização. A pontuação final de correspondência de objetos combina similaridade semântica com o IoU previsto, permitindo uma recuperação mais precisa. (2) Versatilidade: Lida perfeitamente com tarefas em nível de região e em nível de imagem. (3) Codificação Eficiente: Todos os objetos em uma imagem, juntamente com a imagem completa, são codificados em um único *forward pass* para alta eficiência. O desempenho superior em 18 *benchmarks* diversos demonstra sua forte discriminação semântica.

English

Aligning objects with corresponding textual descriptions is a fundamental challenge and a realistic requirement in vision-language understanding. While recent multimodal embedding models excel at global image-text alignment, they often struggle with fine-grained alignment between image regions and specific phrases. In this work, we present ObjEmbed, a novel MLLM embedding model that decomposes the input image into multiple regional embeddings, each corresponding to an individual object, along with global embeddings. It supports a wide range of visual understanding tasks like visual grounding, local image retrieval, and global image retrieval. ObjEmbed enjoys three key properties: (1) Object-Oriented Representation: It captures both semantic and spatial aspects of objects by generating two complementary embeddings for each region: an object embedding for semantic matching and an IoU embedding that predicts localization quality. The final object matching score combines semantic similarity with the predicted IoU, enabling more accurate retrieval. (2) Versatility: It seamlessly handles both region-level and image-level tasks. (3) Efficient Encoding: All objects in an image, along with the full image, are encoded in a single forward pass for high efficiency. Superior performance on 18 diverse benchmarks demonstrates its strong semantic discrimination.

ObjEmbed: Rumo a Incorporações Universais de Objetos Multimodais

ObjEmbed: Towards Universal Multimodal Object Embeddings

Resumo

Support