KaLM-Reranker-V1: Interacción Rápida pero No Tardía para el Reordenamiento de Documentos Comprimidos

Resumen

A medida que los sistemas de recuperación escalan, la reordenación de alta calidad se vuelve cada vez más importante. Sin embargo, la mayoría de los rerankers existentes, ya sean basados en codificadores o en decodificadores, codifican conjuntamente la consulta y el pasaje, acoplando estrechamente su cómputo y limitando la eficiencia de despliegue, así como la flexibilidad. Presentamos KaLM-Reranker-V1, un reranker rápido pero sin interacción tardía (FBNL) que desacopla el cómputo de la consulta y del pasaje mientras mantiene un modelado de relevancia expresivo. Construido sobre una arquitectura codificador-decodificador, KaLM-Reranker-V1 utiliza el codificador para pre-codificar pasajes con agrupación de embeddings Matryoshka, mientras que el decodificador modela la instrucción del sistema, la instrucción del usuario y la intención de la consulta; la atención cruzada captura entonces la relevancia entre el contexto de la consulta y las representaciones del pasaje. Este diseño hace que KaLM-Reranker-V1 sea eficiente mediante la codificación desacoplada de pasajes, pero sin interacción tardía, al preservar un modelado de relevancia rico a través de la atención cruzada. Instanciamos KaLM-Reranker-V1 en tres tamaños: Nano, Small y Large, con 0,27B, 1B y 4B de parámetros activados, respectivamente. Experimentos exhaustivos en BEIR, MIRACL y LMEB demuestran que KaLM-Reranker-V1 logra un rendimiento de reordenación sólido con una eficiencia superior. En BEIR, KaLM-Reranker-V1 alcanza un rendimiento de última generación, a la par de modelos industriales potentes como la serie Qwen3-Reranker; en MIRACL, a pesar de no haber sido entrenado extensamente en datos multilingües, KaLM-Reranker-V1 muestra un excelente rendimiento de reordenación. Además, en LMEB, los modelos de reordenación demuestran una clara ventaja, donde incluso el modelo Nano de 0,27B sigue siendo competitivo con modelos de embedding de 7-12B.

English

As retrieval systems scale, high-quality reranking becomes increasingly important. However, most existing rerankers, whether encoder-based or decoder-based, jointly encode the query and passage, tightly coupling their computation and limiting deployment efficiency as well as flexibility. We present KaLM-Reranker-V1, a fast but not late-interaction (FBNL) reranker that decouples query and passage computation while retaining expressive relevance modeling. Built on an encoder-decoder architecture, KaLM-Reranker-V1 uses the encoder to pre-encode passages with Matryoshka embedding pooling, while the decoder models the system instruction, user instruction, and query intent; cross-attention then captures relevance between the query context and passage representations. This design makes KaLM-Reranker-V1 efficient through decoupled passage encoding, yet not late interaction, by preserving rich relevance modeling through cross-attention. We instantiate KaLM-Reranker-V1 in three sizes, Nano, Small, and Large, with 0.27B, 1B, and 4B activated parameters, respectively. Extensive experiments on BEIR, MIRACL, and LMEB demonstrate that KaLM-Reranker-V1 achieves strong reranking performance with superior efficiency. On BEIR, KaLM-Reranker-V1 achieves state-of-the-art performance, on par with strong industrial models such as the Qwen3-Reranker series; on MIRACL, despite not being extensively trained on multilingual data, KaLM-Reranker-V1 still shows excellent reranking performance. Moreover, on LMEB, reranking models demonstrate a clear advantage, with even the 0.27B Nano model remaining competitive with 7-12B embedding models.