あなたの埋め込みモデルは、あなたが考えているよりも賢い
Your Embedding Model is SMARTer Than You Think
May 24, 2026
著者: Jianrui Zhang, Hyun Jung Lee, Sukanta Ganguly, Tae-Eui Kam, Donghyun Kim, Yong Jae Lee
cs.AI
要旨
マルチモーダル検索は、豊富な連続トークン系列を単一のグローバル表現に圧縮する単一ベクトル検索器に大きく依存している。これらの手法は効率的であるものの、高密度検索タスクに重要な細粒度の局所的な証拠を捨象してしまう。この問題への解決策として複数ベクトル手法が導入されたが、これらは厳密に訓練を必要とし、多くの場合、大域的な要約表現の必要性を無視している。これに対処するために、我々は標準的な単一ベクトルモデルが持つ潜在的な複数ベクトル能力を解放するフレームワークSMARTを提案する。まず、プールされた埋め込みに対する標準的な対比学習が、勾配流を介して先行する隠れ状態の検索幾何構造を暗黙的に形成することを示す。推論時にこれらの凍結された隠れ状態に対して直接的な後期相互作用を適用することで、SMARTはプラグアンドプレイ型のアップグレードとして機能し、多様なモダリティにわたって一貫して性能を向上させ、MMEB-V2上では最先端モデルすらも改善する。また、SMARTの優れた性能を明らかにする。単純で軽量な事後訓練は時間と計算資源を節約するだけでなく、ビジュアルドキュメント検索においてさらなる改善をもたらし、単一ベクトルモデルが最先端の複数ベクトルモデルを凌駕することを可能にする。最終的にSMARTは、マルチモーダル検索において極めて効率的な推論強化と強力なファインチューニング手法の両方を提供する。我々はコードと重みをhttps://github.com/HanSolo9682/SMARTでオープンソースとして公開する。
English
Multimodal retrieval relies heavily on single-vector retrievers, which compress rich, sequential token sequences into one single global representation. While efficient, they discard fine-grained, local evidence critical for dense retrieval tasks. Multi-vector approaches were introduced as a solution, but they strictly require training and many ignore the necessity of a globally summarizing representation. To address this, we introduce SMART, a framework that unlocks the latent multi-vector capabilities of standard single-vector models. We first demonstrate that standard contrastive training on the pooled embedding implicitly shapes the retrieval geometry of preceding hidden states via gradient flow. By applying direct late-interaction over these frozen hidden states during inference, SMART acts as a plug-and-play upgrade that consistently improves performance across diverse modalities, improving even the state-of-the-art models further on MMEB-V2. We also reveal SMART's superior performance, as simple lightweight post-training not only saves time and compute, but also brings forth further improvement on Visual Document retrieval, allowing a single-vector model to outperform SoTA multi-vector counterparts. Ultimately, SMART offers both a highly efficient inference enhancement and a powerful finetuning technique for multimodal retrieval. We open source our code and weights at https://github.com/HanSolo9682/SMART.