Ваша эмбеддинг-модель SMARTer, чем вы думаете

Аннотация

Мультимодальный поиск в значительной степени опирается на одновекторные ретриверы, которые сжимают богатые последовательные токеновые последовательности в одно единое глобальное представление. Будучи эффективными, они отбрасывают мелкозернистые локальные свидетельства, критически важные для задач плотного поиска. Мультивекторные подходы были предложены как решение, но они строго требуют обучения, и многие игнорируют необходимость глобально обобщающего представления. Чтобы решить эту проблему, мы представляем SMART — фреймворк, который раскрывает скрытые мультивекторные возможности стандартных одновекторных моделей. Сначала мы демонстрируем, что стандартное контрастивное обучение на агрегированном эмбеддинге неявно формирует геометрию поиска предыдущих скрытых состояний через градиентный поток. Применяя прямое позднее взаимодействие над этими замороженными скрытыми состояниями во время инференса, SMART действует как модернизация типа «подключи и работай», которая последовательно улучшает производительность на различных модальностях, улучшая даже современные модели SOTA на MMEB-V2. Мы также раскрываем превосходную производительность SMART: простое легковесное пост-обучение не только экономит время и вычислительные ресурсы, но и приносит дополнительное улучшение в поиске визуальных документов, позволяя одновекторной модели превосходить современные многокомпонентные аналоги SOTA. В конечном итоге SMART предлагает как высокоэффективное улучшение инференса, так и мощную технику тонкой настройки для мультимодального поиска. Мы публикуем наш код и веса в открытом доступе по адресу https://github.com/HanSolo9682/SMART.

English

Multimodal retrieval relies heavily on single-vector retrievers, which compress rich, sequential token sequences into one single global representation. While efficient, they discard fine-grained, local evidence critical for dense retrieval tasks. Multi-vector approaches were introduced as a solution, but they strictly require training and many ignore the necessity of a globally summarizing representation. To address this, we introduce SMART, a framework that unlocks the latent multi-vector capabilities of standard single-vector models. We first demonstrate that standard contrastive training on the pooled embedding implicitly shapes the retrieval geometry of preceding hidden states via gradient flow. By applying direct late-interaction over these frozen hidden states during inference, SMART acts as a plug-and-play upgrade that consistently improves performance across diverse modalities, improving even the state-of-the-art models further on MMEB-V2. We also reveal SMART's superior performance, as simple lightweight post-training not only saves time and compute, but also brings forth further improvement on Visual Document retrieval, allowing a single-vector model to outperform SoTA multi-vector counterparts. Ultimately, SMART offers both a highly efficient inference enhancement and a powerful finetuning technique for multimodal retrieval. We open source our code and weights at https://github.com/HanSolo9682/SMART.