Apprendimento dell'Implicazione Globale e Locale per le Immagini del Mondo Naturale
Global and Local Entailment Learning for Natural World Imagery
June 26, 2025
Autori: Srikumar Sastry, Aayush Dhakal, Eric Xing, Subash Khanal, Nathan Jacobs
cs.AI
Abstract
L'apprendimento della struttura gerarchica dei dati nei modelli visione-linguaggio rappresenta una sfida significativa. I lavori precedenti hanno tentato di affrontare questa sfida utilizzando l'apprendimento per implicazione. Tuttavia, questi approcci non riescono a modellare esplicitamente la natura transitiva dell'implicazione, che stabilisce la relazione tra ordine e semantica all'interno di uno spazio di rappresentazione. In questo lavoro, introduciamo Radial Cross-Modal Embeddings (RCME), un framework che consente la modellazione esplicita dell'implicazione con transitività forzata. Il nostro framework proposto ottimizza l'ordine parziale dei concetti all'interno dei modelli visione-linguaggio. Sfruttando il nostro framework, sviluppiamo un modello di base visione-linguaggio gerarchico in grado di rappresentare la gerarchia nell'Albero della Vita. I nostri esperimenti sulla classificazione gerarchica delle specie e sui task di recupero gerarchico dimostrano le prestazioni migliorate dei nostri modelli rispetto ai modelli state-of-the-art esistenti. Il nostro codice e i nostri modelli sono open-source all'indirizzo https://vishu26.github.io/RCME/index.html.
English
Learning the hierarchical structure of data in vision-language models is a
significant challenge. Previous works have attempted to address this challenge
by employing entailment learning. However, these approaches fail to model the
transitive nature of entailment explicitly, which establishes the relationship
between order and semantics within a representation space. In this work, we
introduce Radial Cross-Modal Embeddings (RCME), a framework that enables the
explicit modeling of transitivity-enforced entailment. Our proposed framework
optimizes for the partial order of concepts within vision-language models. By
leveraging our framework, we develop a hierarchical vision-language foundation
model capable of representing the hierarchy in the Tree of Life. Our
experiments on hierarchical species classification and hierarchical retrieval
tasks demonstrate the enhanced performance of our models compared to the
existing state-of-the-art models. Our code and models are open-sourced at
https://vishu26.github.io/RCME/index.html.