Globale und lokale Inferenzlernverfahren für natürliche Bilddaten
Global and Local Entailment Learning for Natural World Imagery
June 26, 2025
Autoren: Srikumar Sastry, Aayush Dhakal, Eric Xing, Subash Khanal, Nathan Jacobs
cs.AI
Zusammenfassung
Das Erlernen der hierarchischen Struktur von Daten in Vision-Sprache-Modellen stellt eine erhebliche Herausforderung dar. Frühere Arbeiten haben versucht, diese Herausforderung durch den Einsatz von Entailment-Lernen zu bewältigen. Diese Ansätze scheitern jedoch daran, die transitive Natur von Entailment explizit zu modellieren, welche die Beziehung zwischen Ordnung und Semantik innerhalb eines Repräsentationsraums herstellt. In dieser Arbeit führen wir Radial Cross-Modal Embeddings (RCME) ein, ein Framework, das die explizite Modellierung von transivitätsgesteuertem Entailment ermöglicht. Unser vorgeschlagenes Framework optimiert die partielle Ordnung von Konzepten innerhalb von Vision-Sprache-Modellen. Durch die Nutzung unseres Frameworks entwickeln wir ein hierarchisches Vision-Sprache-Grundmodell, das in der Lage ist, die Hierarchie im Baum des Lebens darzustellen. Unsere Experimente zur hierarchischen Artenklassifikation und zu hierarchischen Retrieval-Aufgaben zeigen die verbesserte Leistung unserer Modelle im Vergleich zu den bestehenden State-of-the-Art-Modellen. Unser Code und unsere Modelle sind unter https://vishu26.github.io/RCME/index.html open-source verfügbar.
English
Learning the hierarchical structure of data in vision-language models is a
significant challenge. Previous works have attempted to address this challenge
by employing entailment learning. However, these approaches fail to model the
transitive nature of entailment explicitly, which establishes the relationship
between order and semantics within a representation space. In this work, we
introduce Radial Cross-Modal Embeddings (RCME), a framework that enables the
explicit modeling of transitivity-enforced entailment. Our proposed framework
optimizes for the partial order of concepts within vision-language models. By
leveraging our framework, we develop a hierarchical vision-language foundation
model capable of representing the hierarchy in the Tree of Life. Our
experiments on hierarchical species classification and hierarchical retrieval
tasks demonstrate the enhanced performance of our models compared to the
existing state-of-the-art models. Our code and models are open-sourced at
https://vishu26.github.io/RCME/index.html.