ChatPaper.aiChatPaper

Aprendizado de Implicação Global e Local para Imagens do Mundo Natural

Global and Local Entailment Learning for Natural World Imagery

June 26, 2025
Autores: Srikumar Sastry, Aayush Dhakal, Eric Xing, Subash Khanal, Nathan Jacobs
cs.AI

Resumo

Aprender a estrutura hierárquica dos dados em modelos de visão e linguagem é um desafio significativo. Trabalhos anteriores tentaram abordar esse desafio empregando o aprendizado de implicação. No entanto, essas abordagens não conseguem modelar explicitamente a natureza transitiva da implicação, que estabelece a relação entre ordem e semântica dentro de um espaço de representação. Neste trabalho, introduzimos os Radial Cross-Modal Embeddings (RCME), um framework que permite a modelagem explícita da implicação com transitividade imposta. Nosso framework proposto otimiza a ordem parcial de conceitos dentro de modelos de visão e linguagem. Ao aproveitar nosso framework, desenvolvemos um modelo base de visão e linguagem hierárquico capaz de representar a hierarquia na Árvore da Vida. Nossos experimentos em tarefas de classificação hierárquica de espécies e recuperação hierárquica demonstram o desempenho aprimorado de nossos modelos em comparação com os modelos state-of-the-art existentes. Nosso código e modelos estão disponíveis em código aberto em https://vishu26.github.io/RCME/index.html.
English
Learning the hierarchical structure of data in vision-language models is a significant challenge. Previous works have attempted to address this challenge by employing entailment learning. However, these approaches fail to model the transitive nature of entailment explicitly, which establishes the relationship between order and semantics within a representation space. In this work, we introduce Radial Cross-Modal Embeddings (RCME), a framework that enables the explicit modeling of transitivity-enforced entailment. Our proposed framework optimizes for the partial order of concepts within vision-language models. By leveraging our framework, we develop a hierarchical vision-language foundation model capable of representing the hierarchy in the Tree of Life. Our experiments on hierarchical species classification and hierarchical retrieval tasks demonstrate the enhanced performance of our models compared to the existing state-of-the-art models. Our code and models are open-sourced at https://vishu26.github.io/RCME/index.html.
PDF11June 30, 2025