Глобальное и локальное обучение логическому следствию для изображений природного мира
Global and Local Entailment Learning for Natural World Imagery
June 26, 2025
Авторы: Srikumar Sastry, Aayush Dhakal, Eric Xing, Subash Khanal, Nathan Jacobs
cs.AI
Аннотация
Изучение иерархической структуры данных в моделях, объединяющих зрение и язык, представляет собой значительную проблему. Предыдущие работы пытались решить эту задачу с помощью обучения на основе импликации. Однако эти подходы не учитывают явно транзитивную природу импликации, которая устанавливает связь между порядком и семантикой в пространстве представлений. В данной работе мы представляем Radial Cross-Modal Embeddings (RCME) — фреймворк, который позволяет явно моделировать транзитивную импликацию. Наш предложенный фреймворк оптимизирует частичный порядок концепций в моделях, объединяющих зрение и язык. Используя этот фреймворк, мы разрабатываем иерархическую базовую модель для задач, связанных с зрением и языком, способную представлять иерархию в Древе Жизни. Наши эксперименты по иерархической классификации видов и иерархическому поиску демонстрируют улучшенную производительность наших моделей по сравнению с современными аналогами. Наш код и модели доступны по адресу https://vishu26.github.io/RCME/index.html.
English
Learning the hierarchical structure of data in vision-language models is a
significant challenge. Previous works have attempted to address this challenge
by employing entailment learning. However, these approaches fail to model the
transitive nature of entailment explicitly, which establishes the relationship
between order and semantics within a representation space. In this work, we
introduce Radial Cross-Modal Embeddings (RCME), a framework that enables the
explicit modeling of transitivity-enforced entailment. Our proposed framework
optimizes for the partial order of concepts within vision-language models. By
leveraging our framework, we develop a hierarchical vision-language foundation
model capable of representing the hierarchy in the Tree of Life. Our
experiments on hierarchical species classification and hierarchical retrieval
tasks demonstrate the enhanced performance of our models compared to the
existing state-of-the-art models. Our code and models are open-sourced at
https://vishu26.github.io/RCME/index.html.