Aprendizaje de Implicación Global y Local para Imágenes del Mundo Natural
Global and Local Entailment Learning for Natural World Imagery
June 26, 2025
Autores: Srikumar Sastry, Aayush Dhakal, Eric Xing, Subash Khanal, Nathan Jacobs
cs.AI
Resumen
Aprender la estructura jerárquica de los datos en modelos de visión y lenguaje representa un desafío significativo. Trabajos anteriores han intentado abordar este desafío mediante el aprendizaje de implicación. Sin embargo, estos enfoques no logran modelar explícitamente la naturaleza transitiva de la implicación, la cual establece la relación entre el orden y la semántica dentro de un espacio de representación. En este trabajo, presentamos Radial Cross-Modal Embeddings (RCME), un marco que permite el modelado explícito de la implicación reforzada por transitividad. Nuestro marco propuesto optimiza el orden parcial de conceptos dentro de modelos de visión y lenguaje. Al aprovechar nuestro marco, desarrollamos un modelo fundacional jerárquico de visión y lenguaje capaz de representar la jerarquía en el Árbol de la Vida. Nuestros experimentos en clasificación jerárquica de especies y tareas de recuperación jerárquica demuestran el rendimiento mejorado de nuestros modelos en comparación con los modelos más avanzados existentes. Nuestro código y modelos están disponibles públicamente en https://vishu26.github.io/RCME/index.html.
English
Learning the hierarchical structure of data in vision-language models is a
significant challenge. Previous works have attempted to address this challenge
by employing entailment learning. However, these approaches fail to model the
transitive nature of entailment explicitly, which establishes the relationship
between order and semantics within a representation space. In this work, we
introduce Radial Cross-Modal Embeddings (RCME), a framework that enables the
explicit modeling of transitivity-enforced entailment. Our proposed framework
optimizes for the partial order of concepts within vision-language models. By
leveraging our framework, we develop a hierarchical vision-language foundation
model capable of representing the hierarchy in the Tree of Life. Our
experiments on hierarchical species classification and hierarchical retrieval
tasks demonstrate the enhanced performance of our models compared to the
existing state-of-the-art models. Our code and models are open-sourced at
https://vishu26.github.io/RCME/index.html.