KaLM-Reranker-V1: Snelle maar niet-late interactie voor herrangschikking van gecomprimeerde documenten

Samenvatting

Naarmate retrieveringssystemen schalen, wordt hoogwaardige herordening steeds belangrijker. De meeste bestaande herordenaars, zowel op encoder als decoder gebaseerd, coderen echter de query en passage gezamenlijk, waardoor hun berekening nauw gekoppeld wordt en de implementatie-efficiëntie en flexibiliteit worden beperkt. We presenteren KaLM-Reranker-V1, een snelle maar niet-late-interactie (FBNL) herordenaar die de berekening van query en passage ontkoppelt terwijl expressieve relevantiemodellering behouden blijft. Gebouwd op een encoder-decoder architectuur gebruikt KaLM-Reranker-V1 de encoder om passages voor te coderen met Matryoshka-embedding pooling, terwijl de decoder de systeeminstructie, gebruikersinstructie en query-intentie modelleert; cross-attentie legt vervolgens de relevantie vast tussen de querycontext en de passage-representaties. Dit ontwerp maakt KaLM-Reranker-V1 efficiënt door ontkoppelde passagecodering, maar niet late interactie, door rijke relevantiemodellering te behouden via cross-attentie. We instantiatiëren KaLM-Reranker-V1 in drie formaten, Nano, Small en Large, met respectievelijk 0,27B, 1B en 4B geactiveerde parameters. Uitgebreide experimenten op BEIR, MIRACL en LMEB tonen aan dat KaLM-Reranker-V1 sterke herordeningsprestaties levert met superieure efficiëntie. Op BEIR behaalt KaLM-Reranker-V1 state-of-the-art prestaties, vergelijkbaar met sterke industriële modellen zoals de Qwen3-Reranker-serie; op MIRACL, hoewel niet uitgebreid getraind op meertalige gegevens, vertoont KaLM-Reranker-V1 nog steeds uitstekende herordeningsprestaties. Bovendien tonen herordeningsmodellen op LMEB een duidelijk voordeel, waarbij zelfs het 0,27B Nano-model competitief blijft met 7-12B inbeddingsmodellen.

English

As retrieval systems scale, high-quality reranking becomes increasingly important. However, most existing rerankers, whether encoder-based or decoder-based, jointly encode the query and passage, tightly coupling their computation and limiting deployment efficiency as well as flexibility. We present KaLM-Reranker-V1, a fast but not late-interaction (FBNL) reranker that decouples query and passage computation while retaining expressive relevance modeling. Built on an encoder-decoder architecture, KaLM-Reranker-V1 uses the encoder to pre-encode passages with Matryoshka embedding pooling, while the decoder models the system instruction, user instruction, and query intent; cross-attention then captures relevance between the query context and passage representations. This design makes KaLM-Reranker-V1 efficient through decoupled passage encoding, yet not late interaction, by preserving rich relevance modeling through cross-attention. We instantiate KaLM-Reranker-V1 in three sizes, Nano, Small, and Large, with 0.27B, 1B, and 4B activated parameters, respectively. Extensive experiments on BEIR, MIRACL, and LMEB demonstrate that KaLM-Reranker-V1 achieves strong reranking performance with superior efficiency. On BEIR, KaLM-Reranker-V1 achieves state-of-the-art performance, on par with strong industrial models such as the Qwen3-Reranker series; on MIRACL, despite not being extensively trained on multilingual data, KaLM-Reranker-V1 still shows excellent reranking performance. Moreover, on LMEB, reranking models demonstrate a clear advantage, with even the 0.27B Nano model remaining competitive with 7-12B embedding models.