KaLM-Reranker-V1: Schnelle, aber nicht späte Interaktion für das Reranking von komprimierten Dokumenten

Zusammenfassung

Mit zunehmender Skalierung von Retrieval-Systemen gewinnt eine qualitativ hochwertige Neubewertung (Reranking) stetig an Bedeutung. Die meisten bestehenden Reranker – sowohl encoder- als auch decoderbasierte – kodieren jedoch Abfrage und Passagen gemeinsam, was deren Berechnung eng koppelt sowie die Effizienz und Flexibilität des Einsatzes einschränkt. Wir stellen KaLM-Reranker-V1 vor, einen schnellen, aber nicht spät interagierenden (FBNL) Reranker, der die Berechnung von Abfrage und Passagen entkoppelt und dennoch eine ausdrucksstarke Relevanzmodellierung beibehält. KaLM-Reranker-V1 basiert auf einer Encoder-Decoder-Architektur: Der Encoder kodiert Passagen mittels Matroschka-Einbettungs-Pooling vor, während der Decoder die Systemanweisung, die Benutzeranweisung und die Abfrageintention modelliert; die Kreuzaufmerksamkeit (Cross-Attention) erfasst anschließend die Relevanz zwischen dem Abfragekontext und den Passagenrepräsentationen. Dieses Design macht KaLM-Reranker-V1 durch entkoppelte Passagenkodierung effizient, aber dennoch nicht spät interagierend, da eine reichhaltige Relevanzmodellierung über Kreuzaufmerksamkeit erhalten bleibt. Wir instanziieren KaLM-Reranker-V1 in drei Größen – Nano, Small und Large – mit 0,27 Mrd., 1 Mrd. bzw. 4 Mrd. aktivierten Parametern. Umfangreiche Experimente auf BEIR, MIRACL und LMEB zeigen, dass KaLM-Reranker-V1 starke Reranking-Leistung bei überlegener Effizienz erzielt. Auf BEIR erreicht KaLM-Reranker-V1 eine Spitzenleistung, die mit starken industriellen Modellen wie der Qwen3-Reranker-Serie vergleichbar ist; auf MIRACL zeigt KaLM-Reranker-V1 trotz fehlender umfangreicher Trainingsdaten für mehrsprachige Daten weiterhin exzellente Reranking-Ergebnisse. Darüber hinaus weisen Reranking-Modelle auf LMEB einen deutlichen Vorteil auf – selbst das 0,27-Milliarden-Parameter-Nano-Modell bleibt wettbewerbsfähig mit 7-12-Milliarden-Einbettungsmodellen.

English

As retrieval systems scale, high-quality reranking becomes increasingly important. However, most existing rerankers, whether encoder-based or decoder-based, jointly encode the query and passage, tightly coupling their computation and limiting deployment efficiency as well as flexibility. We present KaLM-Reranker-V1, a fast but not late-interaction (FBNL) reranker that decouples query and passage computation while retaining expressive relevance modeling. Built on an encoder-decoder architecture, KaLM-Reranker-V1 uses the encoder to pre-encode passages with Matryoshka embedding pooling, while the decoder models the system instruction, user instruction, and query intent; cross-attention then captures relevance between the query context and passage representations. This design makes KaLM-Reranker-V1 efficient through decoupled passage encoding, yet not late interaction, by preserving rich relevance modeling through cross-attention. We instantiate KaLM-Reranker-V1 in three sizes, Nano, Small, and Large, with 0.27B, 1B, and 4B activated parameters, respectively. Extensive experiments on BEIR, MIRACL, and LMEB demonstrate that KaLM-Reranker-V1 achieves strong reranking performance with superior efficiency. On BEIR, KaLM-Reranker-V1 achieves state-of-the-art performance, on par with strong industrial models such as the Qwen3-Reranker series; on MIRACL, despite not being extensively trained on multilingual data, KaLM-Reranker-V1 still shows excellent reranking performance. Moreover, on LMEB, reranking models demonstrate a clear advantage, with even the 0.27B Nano model remaining competitive with 7-12B embedding models.