ChatPaper.aiChatPaper

Globaal en lokaal gevolgtrekkingsleren voor natuurlijke wereldbeelden

Global and Local Entailment Learning for Natural World Imagery

June 26, 2025
Auteurs: Srikumar Sastry, Aayush Dhakal, Eric Xing, Subash Khanal, Nathan Jacobs
cs.AI

Samenvatting

Het leren van de hiërarchische structuur van gegevens in visie-taalmodellen is een aanzienlijke uitdaging. Eerdere werken hebben geprobeerd deze uitdaging aan te pakken door middel van entailment learning. Deze benaderingen slagen er echter niet in om de transitieve aard van entailment expliciet te modelleren, wat de relatie tussen volgorde en semantiek binnen een representatieruimte vaststelt. In dit werk introduceren we Radial Cross-Modal Embeddings (RCME), een raamwerk dat het expliciete modelleren van transitief afgedwongen entailment mogelijk maakt. Ons voorgestelde raamwerk optimaliseert voor de partiële ordening van concepten binnen visie-taalmodellen. Door gebruik te maken van ons raamwerk ontwikkelen we een hiërarchisch visie-taal basis model dat in staat is de hiërarchie in de Tree of Life te representeren. Onze experimenten op het gebied van hiërarchische soortclassificatie en hiërarchische retrievetaak demonstreren de verbeterde prestaties van onze modellen in vergelijking met de bestaande state-of-the-art modellen. Onze code en modellen zijn open-source beschikbaar op https://vishu26.github.io/RCME/index.html.
English
Learning the hierarchical structure of data in vision-language models is a significant challenge. Previous works have attempted to address this challenge by employing entailment learning. However, these approaches fail to model the transitive nature of entailment explicitly, which establishes the relationship between order and semantics within a representation space. In this work, we introduce Radial Cross-Modal Embeddings (RCME), a framework that enables the explicit modeling of transitivity-enforced entailment. Our proposed framework optimizes for the partial order of concepts within vision-language models. By leveraging our framework, we develop a hierarchical vision-language foundation model capable of representing the hierarchy in the Tree of Life. Our experiments on hierarchical species classification and hierarchical retrieval tasks demonstrate the enhanced performance of our models compared to the existing state-of-the-art models. Our code and models are open-sourced at https://vishu26.github.io/RCME/index.html.
PDF11June 30, 2025