Votre modèle d'embedding est plus SMART que vous ne le pensez

Résumé

La recherche multimodale repose largement sur les récupérateurs mono-vecteurs, qui compressent des séquences riches et séquentielles de tokens en une seule représentation globale. Bien qu'efficaces, ils éliminent les preuves locales et fines, essentielles pour les tâches de recherche dense. Les approches multi-vecteurs ont été introduites comme solution, mais elles nécessitent strictement un apprentissage et beaucoup ignorent la nécessité d'une représentation globalement synthétique. Pour y remédier, nous présentons SMART, un cadre qui déverrouille les capacités multi-vecteurs latentes des modèles mono-vecteurs standard. Nous montrons d'abord que l'apprentissage contrastif standard sur le plongement agrégé façonne implicitement la géométrie de recherche des états cachés précédents via le flux de gradient. En appliquant une interaction tardive directe sur ces états cachés gelés lors de l'inférence, SMART agit comme une mise à niveau prête à l'emploi qui améliore constamment les performances sur diverses modalités, améliorant même les modèles de pointe sur MMEB-V2. Nous révélons également la performance supérieure de SMART, car un simple post-entraînement léger permet non seulement d'économiser du temps et du calcul, mais aussi d'apporter une amélioration supplémentaire sur la recherche de documents visuels, permettant à un modèle mono-vecteur de surpasser les homologues multi-vecteurs de pointe. En fin de compte, SMART offre à la fois une amélioration d'inférence très efficace et une technique de réglage fin puissante pour la recherche multimodale. Nous publions notre code et nos poids en open source à l'adresse https://github.com/HanSolo9682/SMART.

English

Multimodal retrieval relies heavily on single-vector retrievers, which compress rich, sequential token sequences into one single global representation. While efficient, they discard fine-grained, local evidence critical for dense retrieval tasks. Multi-vector approaches were introduced as a solution, but they strictly require training and many ignore the necessity of a globally summarizing representation. To address this, we introduce SMART, a framework that unlocks the latent multi-vector capabilities of standard single-vector models. We first demonstrate that standard contrastive training on the pooled embedding implicitly shapes the retrieval geometry of preceding hidden states via gradient flow. By applying direct late-interaction over these frozen hidden states during inference, SMART acts as a plug-and-play upgrade that consistently improves performance across diverse modalities, improving even the state-of-the-art models further on MMEB-V2. We also reveal SMART's superior performance, as simple lightweight post-training not only saves time and compute, but also brings forth further improvement on Visual Document retrieval, allowing a single-vector model to outperform SoTA multi-vector counterparts. Ultimately, SMART offers both a highly efficient inference enhancement and a powerful finetuning technique for multimodal retrieval. We open source our code and weights at https://github.com/HanSolo9682/SMART.