Seu modelo de embeddings é mais inteligente do que você imagina.

Resumo

A recuperação multimodal depende fortemente de recuperadores de vetor único, que comprimem sequências ricas e sequenciais de tokens em uma única representação global. Embora eficientes, eles descartam evidências locais e refinadas, essenciais para tarefas de recuperação densa. Abordagens multivetoriais foram introduzidas como solução, mas exigem treinamento estrito e muitas ignoram a necessidade de uma representação sumarizadora global. Para resolver isso, apresentamos o SMART, um framework que desbloqueia as capacidades multivetoriais latentes de modelos padrão de vetor único. Primeiro, demonstramos que o treinamento contrastivo padrão na incorporação agregada molda implicitamente a geometria de recuperação dos estados ocultos precedentes por meio de fluxo gradiente. Ao aplicar interação tardia diretamente sobre esses estados ocultos congelados durante a inferência, o SMART atua como uma atualização plug-and-play que melhora consistentemente o desempenho em diversas modalidades, aprimorando até mesmo modelos estado da arte no MMEB-V2. Também revelamos o desempenho superior do SMART, já que um pós-treinamento leve e simples não apenas economiza tempo e computação, mas também traz melhorias adicionais na recuperação de documentos visuais, permitindo que um modelo de vetor único supere equivalentes multivetoriais estado da arte. Por fim, o SMART oferece tanto um aprimoramento de inferência altamente eficiente quanto uma técnica poderosa de ajuste fino para recuperação multimodal. Disponibilizamos nosso código e pesos em https://github.com/HanSolo9682/SMART.

English

Multimodal retrieval relies heavily on single-vector retrievers, which compress rich, sequential token sequences into one single global representation. While efficient, they discard fine-grained, local evidence critical for dense retrieval tasks. Multi-vector approaches were introduced as a solution, but they strictly require training and many ignore the necessity of a globally summarizing representation. To address this, we introduce SMART, a framework that unlocks the latent multi-vector capabilities of standard single-vector models. We first demonstrate that standard contrastive training on the pooled embedding implicitly shapes the retrieval geometry of preceding hidden states via gradient flow. By applying direct late-interaction over these frozen hidden states during inference, SMART acts as a plug-and-play upgrade that consistently improves performance across diverse modalities, improving even the state-of-the-art models further on MMEB-V2. We also reveal SMART's superior performance, as simple lightweight post-training not only saves time and compute, but also brings forth further improvement on Visual Document retrieval, allowing a single-vector model to outperform SoTA multi-vector counterparts. Ultimately, SMART offers both a highly efficient inference enhancement and a powerful finetuning technique for multimodal retrieval. We open source our code and weights at https://github.com/HanSolo9682/SMART.