Uw embeddingmodel is SMARTer dan u denkt

Samenvatting

Multimodale retrieval steunt sterk op enkel-vector retrievers, die rijke, sequentiële tokenreeksen comprimeren in één enkele globale representatie. Hoewel efficiënt, verwerpen ze fijnmazig, lokaal bewijs dat cruciaal is voor dense retrievaltaken. Multi-vector benaderingen werden geïntroduceerd als oplossing, maar ze vereisen strikt training en velen negeren de noodzaak van een globaal samenvattende representatie. Om dit aan te pakken introduceren we SMART, een raamwerk dat de latente multi-vector mogelijkheden van standaard enkel-vector modellen ontgrendelt. We tonen eerst aan dat standaard contrastieve training op de gepoolde embedding impliciet de retrievalgeometrie van voorgaande verborgen toestanden vormgeeft via gradiëntstroom. Door directe late-interactie toe te passen over deze bevroren verborgen toestanden tijdens inferentie, fungeert SMART als een plug-and-play upgrade die consistent de prestaties over diverse modaliteiten verbetert, en zelfs de state-of-the-art modellen verder verbetert op MMEB-V2. We onthullen ook de superieure prestaties van SMART, aangezien eenvoudige lichtgewicht post-training niet alleen tijd en rekenkracht bespaart, maar ook verdere verbetering oplevert op visuele documentretrieval, waardoor een enkel-vector model de state-of-the-art multi-vector tegenhangers overtreft. Uiteindelijk biedt SMART zowel een zeer efficiënte inferentieverbetering als een krachtige finetuning-techniek voor multimodale retrieval. We stellen onze code en gewichten open source beschikbaar op https://github.com/HanSolo9682/SMART.

English

Multimodal retrieval relies heavily on single-vector retrievers, which compress rich, sequential token sequences into one single global representation. While efficient, they discard fine-grained, local evidence critical for dense retrieval tasks. Multi-vector approaches were introduced as a solution, but they strictly require training and many ignore the necessity of a globally summarizing representation. To address this, we introduce SMART, a framework that unlocks the latent multi-vector capabilities of standard single-vector models. We first demonstrate that standard contrastive training on the pooled embedding implicitly shapes the retrieval geometry of preceding hidden states via gradient flow. By applying direct late-interaction over these frozen hidden states during inference, SMART acts as a plug-and-play upgrade that consistently improves performance across diverse modalities, improving even the state-of-the-art models further on MMEB-V2. We also reveal SMART's superior performance, as simple lightweight post-training not only saves time and compute, but also brings forth further improvement on Visual Document retrieval, allowing a single-vector model to outperform SoTA multi-vector counterparts. Ultimately, SMART offers both a highly efficient inference enhancement and a powerful finetuning technique for multimodal retrieval. We open source our code and weights at https://github.com/HanSolo9682/SMART.