ChatPaper.aiChatPaper

KaLM-Reranker-V1: 高速でありながら遅延ではない相互作用による圧縮文書リランキング

KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking

June 22, 2026
著者: Xinping Zhao, Jiaxin Xu, Ziqi Dai, Xin Zhang, Shouzheng Huang, Danyu Tang, Xinshuo Hu, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI

要旨

検索システムの規模が拡大するにつれて、高品質な再ランキング(reranking)の重要性がますます高まっています。しかし、既存のほとんどの再ランキングモデルは、エンコーダベースであれデコーダベースであれ、クエリとパッセージをまとめてエンコードするため、計算が密結合となり、デプロイ効率や柔軟性が制限されます。本稿では、クエリとパッセージの計算を分離しつつ、表現力豊かな関連性モデリングを維持する、高速だが遅延相互作用ではない(FBNL)再ランキングモデルであるKaLM-Reranker-V1を提案します。KaLM-Reranker-V1はエンコーダ-デコーダアーキテクチャに基づいており、エンコーダがマトリョーシカ埋め込みプーリングを用いてパッセージを事前エンコードし、デコーダがシステム指示、ユーザ指示、クエリ意図をモデリングします。その後、クロスアテンションによってクエリコンテキストとパッセージ表現間の関連性を捉えます。この設計により、KaLM-Reranker-V1は分離されたパッセージエンコードによって効率的でありながら、クロスアテンションによる豊かな関連性モデリングを維持することで、遅延相互作用ではありません。KaLM-Reranker-V1をNano、Small、Largeの3サイズで実装し、それぞれ0.27B、1B、4Bの活性化パラメータを持ちます。BEIR、MIRACL、LMEBにおける広範な実験により、KaLM-Reranker-V1が優れた効率性と強力な再ランキング性能を達成することを実証しました。BEIRでは、KaLM-Reranker-V1は最先端の性能を達成し、Qwen3-Rerankerシリーズなどの強力な産業用モデルと同等です。MIRACLでは、多言語データで広範に学習されていないにもかかわらず、KaLM-Reranker-V1は優れた再ランキング性能を示します。さらに、LMEBでは、再ランキングモデルが明確な優位性を示し、0.27BのNanoモデルでさえ7~12Bの埋め込みモデルと競合します。
English
As retrieval systems scale, high-quality reranking becomes increasingly important. However, most existing rerankers, whether encoder-based or decoder-based, jointly encode the query and passage, tightly coupling their computation and limiting deployment efficiency as well as flexibility. We present KaLM-Reranker-V1, a fast but not late-interaction (FBNL) reranker that decouples query and passage computation while retaining expressive relevance modeling. Built on an encoder-decoder architecture, KaLM-Reranker-V1 uses the encoder to pre-encode passages with Matryoshka embedding pooling, while the decoder models the system instruction, user instruction, and query intent; cross-attention then captures relevance between the query context and passage representations. This design makes KaLM-Reranker-V1 efficient through decoupled passage encoding, yet not late interaction, by preserving rich relevance modeling through cross-attention. We instantiate KaLM-Reranker-V1 in three sizes, Nano, Small, and Large, with 0.27B, 1B, and 4B activated parameters, respectively. Extensive experiments on BEIR, MIRACL, and LMEB demonstrate that KaLM-Reranker-V1 achieves strong reranking performance with superior efficiency. On BEIR, KaLM-Reranker-V1 achieves state-of-the-art performance, on par with strong industrial models such as the Qwen3-Reranker series; on MIRACL, despite not being extensively trained on multilingual data, KaLM-Reranker-V1 still shows excellent reranking performance. Moreover, on LMEB, reranking models demonstrate a clear advantage, with even the 0.27B Nano model remaining competitive with 7-12B embedding models.