Alinhamento Composicional Guiado pela Incerteza com Representatividade Semântica Parte-Todo em Modelos Visão-Linguagem Hiperbólicos

Resumo

Embora os Modelos de Visão e Linguagem (VLMs) tenham alcançado um desempenho notável, seus *embeddings* euclidianos permanecem limitados na captura de relações hierárquicas, como estruturas parte-todo ou pai-filho, e frequentemente enfrentam desafios em cenários composicionais multiobjeto. Os VLMs Hiperbólicos mitigam essa questão ao preservar melhor as estruturas hierárquicas e modelar relações parte-todo (ou seja, a cena inteira e suas imagens constituintes) através do *entailment*. No entanto, as abordagens existentes não modelam o facto de que cada parte tem um nível diferente de representatividade semântica em relação ao todo. Propomos o Alinhamento Hiperbólico Composicional Guiado por Incerteza (UNCHA) para aprimorar os VLMs hiperbólicos. O UNCHA modela a representatividade semântica parte-todo com incerteza hiperbólica, atribuindo menor incerteza a partes mais representativas e maior incerteza a partes menos representativas para a cena como um todo. Esta representatividade é então incorporada no objetivo contrastivo com pesos guiados pela incerteza. Finalmente, a incerteza é ainda calibrada com uma função de perda de *entailment* regularizada por um termo baseado em entropia. Com as funções de perda propostas, o UNCHA aprende *embeddings* hiperbólicos com uma ordenação parte-todo mais precisa, capturando a estrutura composicional subjacente numa imagem e melhorando a sua compreensão de cenas complexas com múltiplos objetos. O UNCHA alcança um desempenho estado da arte em benchmarks de classificação *zero-shot*, recuperação e classificação multi-rótulo. O nosso código e modelos estão disponíveis em: https://github.com/jeeit17/UNCHA.git.

English

While Vision-Language Models (VLMs) have achieved remarkable performance, their Euclidean embeddings remain limited in capturing hierarchical relationships such as part-to-whole or parent-child structures, and often face challenges in multi-object compositional scenarios. Hyperbolic VLMs mitigate this issue by better preserving hierarchical structures and modeling part-whole relations (i.e., whole scene and its part images) through entailment. However, existing approaches do not model that each part has a different level of semantic representativeness to the whole. We propose UNcertainty-guided Compositional Hyperbolic Alignment (UNCHA) for enhancing hyperbolic VLMs. UNCHA models part-to-whole semantic representativeness with hyperbolic uncertainty, by assigning lower uncertainty to more representative parts and higher uncertainty to less representative ones for the whole scene. This representativeness is then incorporated into the contrastive objective with uncertainty-guided weights. Finally, the uncertainty is further calibrated with an entailment loss regularized by entropy-based term. With the proposed losses, UNCHA learns hyperbolic embeddings with more accurate part-whole ordering, capturing the underlying compositional structure in an image and improving its understanding of complex multi-object scenes. UNCHA achieves state-of-the-art performance on zero-shot classification, retrieval, and multi-label classification benchmarks. Our code and models are available at: https://github.com/jeeit17/UNCHA.git.

Alinhamento Composicional Guiado pela Incerteza com Representatividade Semântica Parte-Todo em Modelos Visão-Linguagem Hiperbólicos

Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

Resumo

Support