ChatPaper.aiChatPaper

Apprendimento dell'Implicazione Globale e Locale per le Immagini del Mondo Naturale

Global and Local Entailment Learning for Natural World Imagery

June 26, 2025
Autori: Srikumar Sastry, Aayush Dhakal, Eric Xing, Subash Khanal, Nathan Jacobs
cs.AI

Abstract

L'apprendimento della struttura gerarchica dei dati nei modelli visione-linguaggio rappresenta una sfida significativa. I lavori precedenti hanno tentato di affrontare questa sfida utilizzando l'apprendimento per implicazione. Tuttavia, questi approcci non riescono a modellare esplicitamente la natura transitiva dell'implicazione, che stabilisce la relazione tra ordine e semantica all'interno di uno spazio di rappresentazione. In questo lavoro, introduciamo Radial Cross-Modal Embeddings (RCME), un framework che consente la modellazione esplicita dell'implicazione con transitività forzata. Il nostro framework proposto ottimizza l'ordine parziale dei concetti all'interno dei modelli visione-linguaggio. Sfruttando il nostro framework, sviluppiamo un modello di base visione-linguaggio gerarchico in grado di rappresentare la gerarchia nell'Albero della Vita. I nostri esperimenti sulla classificazione gerarchica delle specie e sui task di recupero gerarchico dimostrano le prestazioni migliorate dei nostri modelli rispetto ai modelli state-of-the-art esistenti. Il nostro codice e i nostri modelli sono open-source all'indirizzo https://vishu26.github.io/RCME/index.html.
English
Learning the hierarchical structure of data in vision-language models is a significant challenge. Previous works have attempted to address this challenge by employing entailment learning. However, these approaches fail to model the transitive nature of entailment explicitly, which establishes the relationship between order and semantics within a representation space. In this work, we introduce Radial Cross-Modal Embeddings (RCME), a framework that enables the explicit modeling of transitivity-enforced entailment. Our proposed framework optimizes for the partial order of concepts within vision-language models. By leveraging our framework, we develop a hierarchical vision-language foundation model capable of representing the hierarchy in the Tree of Life. Our experiments on hierarchical species classification and hierarchical retrieval tasks demonstrate the enhanced performance of our models compared to the existing state-of-the-art models. Our code and models are open-sourced at https://vishu26.github.io/RCME/index.html.
PDF11June 30, 2025