KaLM-Reranker-V1 : Interaction rapide, mais non tardive, pour le reclassement de documents compressés

Résumé

À mesure que les systèmes de recherche passent à l’échelle, un reclassement de haute qualité devient de plus en plus important. Cependant, la plupart des re-rankers existants, qu’ils soient basés sur un encodeur ou un décodeur, encodent conjointement la requête et le passage, couplant ainsi étroitement leur calcul et limitant l’efficacité de déploiement ainsi que la flexibilité. Nous présentons KaLM-Reranker-V1, un re-rankeur rapide mais non à interaction tardive (FBNL) qui dissocie le calcul de la requête et du passage tout en conservant une modélisation expressive de la pertinence. Construit sur une architecture encodeur-décodeur, KaLM-Reranker-V1 utilise l’encodeur pour pré-encoder les passages avec un regroupement d’embeddings Matriochka, tandis que le décodeur modélise l’instruction système, l’instruction utilisateur et l’intention de la requête ; l’attention croisée capture ensuite la pertinence entre le contexte de la requête et les représentations des passages. Cette conception rend KaLM-Reranker-V1 efficace grâce à un encodage des passages découplé, tout en n’étant pas une interaction tardive, en préservant une modélisation riche de la pertinence via l’attention croisée. Nous instancions KaLM-Reranker-V1 en trois tailles, Nano, Small et Large, avec respectivement 0,27B, 1B et 4B de paramètres activés. Des expériences approfondies sur BEIR, MIRACL et LMEB montrent que KaLM-Reranker-V1 obtient de solides performances de reclassement avec une efficacité supérieure. Sur BEIR, KaLM-Reranker-V1 atteint des performances de pointe, comparables à des modèles industriels puissants comme la série Qwen3-Reranker ; sur MIRACL, bien qu’il n’ait pas été largement entraîné sur des données multilingues, KaLM-Reranker-V1 montre d’excellentes performances de reclassement. De plus, sur LMEB, les modèles de reclassement montrent un avantage clair, le modèle Nano de 0,27B restant même compétitif avec des modèles d’embedding de 7 à 12B.

English

As retrieval systems scale, high-quality reranking becomes increasingly important. However, most existing rerankers, whether encoder-based or decoder-based, jointly encode the query and passage, tightly coupling their computation and limiting deployment efficiency as well as flexibility. We present KaLM-Reranker-V1, a fast but not late-interaction (FBNL) reranker that decouples query and passage computation while retaining expressive relevance modeling. Built on an encoder-decoder architecture, KaLM-Reranker-V1 uses the encoder to pre-encode passages with Matryoshka embedding pooling, while the decoder models the system instruction, user instruction, and query intent; cross-attention then captures relevance between the query context and passage representations. This design makes KaLM-Reranker-V1 efficient through decoupled passage encoding, yet not late interaction, by preserving rich relevance modeling through cross-attention. We instantiate KaLM-Reranker-V1 in three sizes, Nano, Small, and Large, with 0.27B, 1B, and 4B activated parameters, respectively. Extensive experiments on BEIR, MIRACL, and LMEB demonstrate that KaLM-Reranker-V1 achieves strong reranking performance with superior efficiency. On BEIR, KaLM-Reranker-V1 achieves state-of-the-art performance, on par with strong industrial models such as the Qwen3-Reranker series; on MIRACL, despite not being extensively trained on multilingual data, KaLM-Reranker-V1 still shows excellent reranking performance. Moreover, on LMEB, reranking models demonstrate a clear advantage, with even the 0.27B Nano model remaining competitive with 7-12B embedding models.