Redenering-aangevulde representaties voor multimodale retrieva

Samenvatting

Universele Multimodale Retrieval (UMR) streeft naar zoekopdrachten van-ieder-type-naar-ieder-type over tekst en beeld, maar moderne embeddingmodellen blijven broos wanneer zoekopdrachten latent redeneren vereisen (bijvoorbeeld het oplossen van ongespecificeerde referenties of het matchen van compositionele beperkingen). Wij stellen dat deze broosheid vaak data-veroorzaakt is: wanneer afbeeldingen "stille" aanwijzingen bevatten en zoekopdrachten sleutelsemantiek impliciet laten, moet een enkele embeddingpassing zowel redeneren als comprimeren, wat spurieuze kenmerkmatching in de hand werkt. Wij stellen een data-centrisch raamwerk voor dat deze rollen ontkoppelt door redeneren extern te maken vóór retrieval. Met behulp van een sterk Vision–Language Model maken wij impliciete semantiek expliciet door visuele aanwijzingen in corpusitems dicht te beschrijven (dense captioning), dubbelzinnige multimodale referenties in zoekopdrachten op te lossen, en omslachtige instructies te herschrijven naar beknopte retrievalbeperkingen. Enhancemente tijdens inferentie alleen is onvoldoende; de retriever moet getraind worden op deze semantisch dichte representaties om distributieverschuiving te vermijden en het toegevoegde signaal volledig te benutten. Op M-BEIR levert onze met-redenering-versterkte trainingsmethode consistente verbeteringen op ten opzichte van sterke baselines, waarbij ablatiestudies aantonen dat corpusversterking vooral voordeel biedt bij kennisintensieve zoekopdrachten, terwijl queryversterking cruciaal is voor compositionele modificatieverzoeken. Onze code is openbaar beschikbaar op https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.

English

Universal Multimodal Retrieval (UMR) seeks any-to-any search across text and vision, yet modern embedding models remain brittle when queries require latent reasoning (e.g., resolving underspecified references or matching compositional constraints). We argue this brittleness is often data-induced: when images carry "silent" evidence and queries leave key semantics implicit, a single embedding pass must both reason and compress, encouraging spurious feature matching. We propose a data-centric framework that decouples these roles by externalizing reasoning before retrieval. Using a strong Vision--Language Model, we make implicit semantics explicit by densely captioning visual evidence in corpus entries, resolving ambiguous multimodal references in queries, and rewriting verbose instructions into concise retrieval constraints. Inference-time enhancement alone is insufficient; the retriever must be trained on these semantically dense representations to avoid distribution shift and fully exploit the added signal. Across M-BEIR, our reasoning-augmented training method yields consistent gains over strong baselines, with ablations showing that corpus enhancement chiefly benefits knowledge-intensive queries while query enhancement is critical for compositional modification requests. We publicly release our code at https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.

Redenering-aangevulde representaties voor multimodale retrieva

Reasoning-Augmented Representations for Multimodal Retrieval

Samenvatting

Support