ChatPaper.aiChatPaper

Verstärkte Repräsentationen durch Reasoning für die multimodale Suche

Reasoning-Augmented Representations for Multimodal Retrieval

February 6, 2026
papers.authors: Jianrui Zhang, Anirudh Sundara Rajan, Brandon Han, Soochahn Lee, Sukanta Ganguly, Yong Jae Lee
cs.AI

papers.abstract

Universal Multimodal Retrieval (UMR) zielt auf eine beliebige Suche über Text und visuelle Inhalte ab, doch moderne Embedding-Modelle erweisen sich nach wie vor als anfällig, wenn Anfragen latentes Schließen erfordern (z.B. das Auflösen unterbestimmter Referenzen oder das Abgleichen kompositioneller Beschränkungen). Wir argumentieren, dass diese Anfälligkeit oft datenbedingt ist: Wenn Bilder "stille" Beweise enthalten und Anfragen Schlüsselsemantik implizit lassen, muss ein einzelner Embedding-Durchlauf sowohl schließen als auch komprimieren, was fehleranfällige Feature-Zuordnungen begünstigt. Wir schlagen ein datenzentriertes Framework vor, das diese Rollen entkoppelt, indem das Schließen vor dem Retrieval externalisiert wird. Mithilfe eines leistungsstarken Vision-Language-Modells machen wir implizite Semantik explizit, indem wir visuelle Beweise in Korpus-Einträgen umfassend beschriften, mehrdeutige multimodale Referenzen in Anfragen auflösen und umständliche Anweisungen in prägnante Retrieval-Beschränkungen umformulieren. Eine reine Verbesserung zur Inferenzzeit ist unzureichend; der Retriever muss auf diesen semantisch dichten Repräsentationen trainiert werden, um eine Verteilungswerschiebung zu vermeiden und das hinzugefügte Signal voll auszuschöpfen. Auf M-BEIR erzielt unsere mit Schließen angereicherte Trainingsmethode durchgängig bessere Ergebnisse als starke Baselines, wobei Ablation Studies zeigen, dass die Korpus-Verbesserung vor allem wissensintensive Anfragen begünstigt, während die Anfrage-Verbesserung entscheidend für Anfragen mit kompositionellen Änderungen ist. Wir veröffentlichen unseren Code unter https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
English
Universal Multimodal Retrieval (UMR) seeks any-to-any search across text and vision, yet modern embedding models remain brittle when queries require latent reasoning (e.g., resolving underspecified references or matching compositional constraints). We argue this brittleness is often data-induced: when images carry "silent" evidence and queries leave key semantics implicit, a single embedding pass must both reason and compress, encouraging spurious feature matching. We propose a data-centric framework that decouples these roles by externalizing reasoning before retrieval. Using a strong Vision--Language Model, we make implicit semantics explicit by densely captioning visual evidence in corpus entries, resolving ambiguous multimodal references in queries, and rewriting verbose instructions into concise retrieval constraints. Inference-time enhancement alone is insufficient; the retriever must be trained on these semantically dense representations to avoid distribution shift and fully exploit the added signal. Across M-BEIR, our reasoning-augmented training method yields consistent gains over strong baselines, with ablations showing that corpus enhancement chiefly benefits knowledge-intensive queries while query enhancement is critical for compositional modification requests. We publicly release our code at https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
PDF02February 11, 2026