Su modelo de embedding es SMARTer de lo que piensa.

Resumen

La recuperación multimodal depende en gran medida de los recuperadores de vector único, que comprimen ricas secuencias de tokens en una única representación global. Si bien son eficientes, descartan evidencia local y detallada crucial para tareas de recuperación densa. Los enfoques multivecctor se introdujeron como solución, pero requieren estrictamente entrenamiento y muchos ignoran la necesidad de una representación globalmente resumida. Para abordar esto, presentamos SMART, un marco que desbloquea las capacidades latentes multivecctor de los modelos estándar de vector único. Primero demostramos que el entrenamiento contrastivo estándar sobre el embedding agrupado moldea implícitamente la geometría de recuperación de los estados ocultos precedentes a través del flujo de gradiente. Al aplicar interacción tardía directa sobre estos estados ocultos congelados durante la inferencia, SMART actúa como una actualización plug-and-play que mejora consistentemente el rendimiento en diversas modalidades, incluso mejorando modelos de vanguardia en MMEB-V2. También revelamos el rendimiento superior de SMART, ya que un simple post-entrenamiento ligero no solo ahorra tiempo y cómputo, sino que también trae mejoras adicionales en la recuperación de documentos visuales, permitiendo que un modelo de vector único supere a sus contrapartes multivecctor de última generación. En última instancia, SMART ofrece tanto una mejora de inferencia altamente eficiente como una potente técnica de ajuste fino para la recuperación multimodal. Publicamos nuestro código y pesos en https://github.com/HanSolo9682/SMART.

English

Multimodal retrieval relies heavily on single-vector retrievers, which compress rich, sequential token sequences into one single global representation. While efficient, they discard fine-grained, local evidence critical for dense retrieval tasks. Multi-vector approaches were introduced as a solution, but they strictly require training and many ignore the necessity of a globally summarizing representation. To address this, we introduce SMART, a framework that unlocks the latent multi-vector capabilities of standard single-vector models. We first demonstrate that standard contrastive training on the pooled embedding implicitly shapes the retrieval geometry of preceding hidden states via gradient flow. By applying direct late-interaction over these frozen hidden states during inference, SMART acts as a plug-and-play upgrade that consistently improves performance across diverse modalities, improving even the state-of-the-art models further on MMEB-V2. We also reveal SMART's superior performance, as simple lightweight post-training not only saves time and compute, but also brings forth further improvement on Visual Document retrieval, allowing a single-vector model to outperform SoTA multi-vector counterparts. Ultimately, SMART offers both a highly efficient inference enhancement and a powerful finetuning technique for multimodal retrieval. We open source our code and weights at https://github.com/HanSolo9682/SMART.