Ihr Embedding-Modell ist smarter, als Sie denken.

Zusammenfassung

Multimodales Retrieval stützt sich stark auf Ein-Vektor-Retriever, die reichhaltige, sequentielle Token-Sequenzen in eine einzige globale Repräsentation komprimieren. Obwohl effizient, gehen dabei feinkörnige, lokale Informationen verloren, die für dichte Retrieval-Aufgaben entscheidend sind. Multi-Vektor-Ansätze wurden als Lösung eingeführt, erfordern jedoch strikt ein Training und viele ignorieren die Notwendigkeit einer global zusammenfassenden Repräsentation. Um dieses Problem zu adressieren, stellen wir SMART vor, ein Framework, das die latenten Multi-Vektor-Fähigkeiten standardmäßiger Ein-Vektor-Modelle freischaltet. Wir zeigen zunächst, dass ein standardmäßiges kontrastives Training auf der gepoolten Embedding implizit die Retrieval-Geometrie der vorhergehenden versteckten Zustände über den Gradientenfluss formt. Durch die Anwendung direkter Late-Interaction über diese eingefrorenen versteckten Zustände während der Inferenz fungiert SMART als Plug-and-Play-Upgrade, das die Leistung über verschiedene Modalitäten hinweg konsistent verbessert und selbst die State-of-the-Art-Modelle auf MMEB-V2 weiter verbessert. Wir zeigen auch die überlegene Leistung von SMART, da einfaches leichtgewichtiges Post-Training nicht nur Zeit und Rechenleistung spart, sondern auch weitere Verbesserungen beim visuellen Dokumenten-Retrieval ermöglicht, sodass ein Ein-Vektor-Modell seine SoTA-Multi-Vektor-Pendants übertrifft. Letztendlich bietet SMART sowohl eine hoch effiziente Inferenzverbesserung als auch eine leistungsstarke Feintuning-Technik für multimodales Retrieval. Wir veröffentlichen unseren Code und unsere Gewichte unter https://github.com/HanSolo9682/SMART.

English

Multimodal retrieval relies heavily on single-vector retrievers, which compress rich, sequential token sequences into one single global representation. While efficient, they discard fine-grained, local evidence critical for dense retrieval tasks. Multi-vector approaches were introduced as a solution, but they strictly require training and many ignore the necessity of a globally summarizing representation. To address this, we introduce SMART, a framework that unlocks the latent multi-vector capabilities of standard single-vector models. We first demonstrate that standard contrastive training on the pooled embedding implicitly shapes the retrieval geometry of preceding hidden states via gradient flow. By applying direct late-interaction over these frozen hidden states during inference, SMART acts as a plug-and-play upgrade that consistently improves performance across diverse modalities, improving even the state-of-the-art models further on MMEB-V2. We also reveal SMART's superior performance, as simple lightweight post-training not only saves time and compute, but also brings forth further improvement on Visual Document retrieval, allowing a single-vector model to outperform SoTA multi-vector counterparts. Ultimately, SMART offers both a highly efficient inference enhancement and a powerful finetuning technique for multimodal retrieval. We open source our code and weights at https://github.com/HanSolo9682/SMART.