Усиленные логическими рассуждениями представления для мультимодального поиска
Reasoning-Augmented Representations for Multimodal Retrieval
February 6, 2026
Авторы: Jianrui Zhang, Anirudh Sundara Rajan, Brandon Han, Soochahn Lee, Sukanta Ganguly, Yong Jae Lee
cs.AI
Аннотация
Универсальное мультимодальное поисковое извлечение (UMR) стремится к поиску по принципу «любой-к-любому» в тексте и визуальных данных, однако современные модели эмбеддингов остаются ненадежными, когда запросы требуют латентных рассуждений (например, разрешения неспецифицированных ссылок или соответствия композиционным ограничениям). Мы утверждаем, что эта ненадежность часто обусловлена данными: когда изображения несут «скрытые» свидетельства, а запросы оставляют ключевую семантику неявной, единый проход создания эмбеддинга должен одновременно выполнять рассуждение и сжатие, что поощряет ложное соответствие признаков. Мы предлагаем ориентированный на данные фреймворк, который разделяет эти роли, вынося рассуждение за пределы этапа извлечения. Используя мощную визуально-языковую модель, мы делаем неявную семантику явной путем плотного описания визуальных свидетельств в элементах корпуса, разрешения неоднозначных мультимодальных ссылок в запросах и переформулирования многословных инструкций в краткие ограничения для поиска. Одного лишь улучшения на этапе вывода недостаточно; система извлечения должна обучаться на этих семантически насыщенных представлениях, чтобы избежать сдвига распределения и полностью использовать добавленный сигнал. На наборе данных M-BEIR наш метод обучения, дополненный рассуждениями, демонстрирует стабильное улучшение по сравнению с сильными базовыми уровнями, а ablation-исследования показывают, что обогащение корпуса в основном приносит пользу запросам, требующим знаний, тогда как обогащение запросов критически важно для запросов с композиционными модификациями. Мы публикуем наш код по адресу https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
English
Universal Multimodal Retrieval (UMR) seeks any-to-any search across text and vision, yet modern embedding models remain brittle when queries require latent reasoning (e.g., resolving underspecified references or matching compositional constraints). We argue this brittleness is often data-induced: when images carry "silent" evidence and queries leave key semantics implicit, a single embedding pass must both reason and compress, encouraging spurious feature matching. We propose a data-centric framework that decouples these roles by externalizing reasoning before retrieval. Using a strong Vision--Language Model, we make implicit semantics explicit by densely captioning visual evidence in corpus entries, resolving ambiguous multimodal references in queries, and rewriting verbose instructions into concise retrieval constraints. Inference-time enhancement alone is insufficient; the retriever must be trained on these semantically dense representations to avoid distribution shift and fully exploit the added signal. Across M-BEIR, our reasoning-augmented training method yields consistent gains over strong baselines, with ablations showing that corpus enhancement chiefly benefits knowledge-intensive queries while query enhancement is critical for compositional modification requests. We publicly release our code at https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.