KaLM-Reranker-V1: Быстрое, но не позднее взаимодействие для реранжирования сжатых документов

Аннотация

По мере масштабирования систем поиска высокое качество реранжирования становится всё более важным. Однако большинство существующих реранкеров, как на основе энкодеров, так и на основе декодеров, совместно кодируют запрос и пассаж, тесно связывая их вычисления и ограничивая эффективность развертывания и гибкость. Мы представляем KaLM-Reranker-V1 — быстрый, но не с поздним взаимодействием (FBNL) реранкер, который разделяет вычисления запроса и пассажа, сохраняя при этом выразительное моделирование релевантности. Построенный на архитектуре энкодер-декодер, KaLM-Reranker-V1 использует энкодер для предварительного кодирования пассажей с помощью пулинга эмбеддингов Matryoshka, в то время как декодер моделирует системную инструкцию, пользовательскую инструкцию и намерение запроса; затем перекрестное внимание определяет релевантность между контекстом запроса и представлениями пассажей. Такая конструкция делает KaLM-Reranker-V1 эффективным за счет раздельного кодирования пассажей, но при этом не является поздним взаимодействием, сохраняя богатое моделирование релевантности через перекрестное внимание. Мы реализовали KaLM-Reranker-V1 в трех размерах: Nano, Small и Large, с 0,27 млрд, 1 млрд и 4 млрд активируемых параметров соответственно. Обширные эксперименты на BEIR, MIRACL и LMEB показывают, что KaLM-Reranker-V1 достигает высокой производительности реранжирования с превосходной эффективностью. На BEIR KaLM-Reranker-V1 демонстрирует передовые результаты, наравне с такими сильными промышленными моделями, как серия Qwen3-Reranker; на MIRACL, несмотря на отсутствие обширного обучения на многоязычных данных, KaLM-Reranker-V1 по-прежнему показывает отличные результаты реранжирования. Более того, на LMEB модели реранжирования демонстрируют явное преимущество, и даже модель Nano с 0,27 млрд параметров остается конкурентоспособной по сравнению с моделями эмбеддингов размером 7–12 млрд параметров.

English

As retrieval systems scale, high-quality reranking becomes increasingly important. However, most existing rerankers, whether encoder-based or decoder-based, jointly encode the query and passage, tightly coupling their computation and limiting deployment efficiency as well as flexibility. We present KaLM-Reranker-V1, a fast but not late-interaction (FBNL) reranker that decouples query and passage computation while retaining expressive relevance modeling. Built on an encoder-decoder architecture, KaLM-Reranker-V1 uses the encoder to pre-encode passages with Matryoshka embedding pooling, while the decoder models the system instruction, user instruction, and query intent; cross-attention then captures relevance between the query context and passage representations. This design makes KaLM-Reranker-V1 efficient through decoupled passage encoding, yet not late interaction, by preserving rich relevance modeling through cross-attention. We instantiate KaLM-Reranker-V1 in three sizes, Nano, Small, and Large, with 0.27B, 1B, and 4B activated parameters, respectively. Extensive experiments on BEIR, MIRACL, and LMEB demonstrate that KaLM-Reranker-V1 achieves strong reranking performance with superior efficiency. On BEIR, KaLM-Reranker-V1 achieves state-of-the-art performance, on par with strong industrial models such as the Qwen3-Reranker series; on MIRACL, despite not being extensively trained on multilingual data, KaLM-Reranker-V1 still shows excellent reranking performance. Moreover, on LMEB, reranking models demonstrate a clear advantage, with even the 0.27B Nano model remaining competitive with 7-12B embedding models.