ChatPaper.aiChatPaper

KaLM-Reranker-V1: Быстрое, но не позднее взаимодействие для реранжирования сжатых документов

KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking

June 22, 2026
Авторы: Xinping Zhao, Jiaxin Xu, Ziqi Dai, Xin Zhang, Shouzheng Huang, Danyu Tang, Xinshuo Hu, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI

Аннотация

По мере масштабирования систем поиска высокое качество реранжирования становится всё более важным. Однако большинство существующих реранкеров, как на основе энкодеров, так и на основе декодеров, совместно кодируют запрос и пассаж, тесно связывая их вычисления и ограничивая эффективность развертывания и гибкость. Мы представляем KaLM-Reranker-V1 — быстрый, но не с поздним взаимодействием (FBNL) реранкер, который разделяет вычисления запроса и пассажа, сохраняя при этом выразительное моделирование релевантности. Построенный на архитектуре энкодер-декодер, KaLM-Reranker-V1 использует энкодер для предварительного кодирования пассажей с помощью пулинга эмбеддингов Matryoshka, в то время как декодер моделирует системную инструкцию, пользовательскую инструкцию и намерение запроса; затем перекрестное внимание определяет релевантность между контекстом запроса и представлениями пассажей. Такая конструкция делает KaLM-Reranker-V1 эффективным за счет раздельного кодирования пассажей, но при этом не является поздним взаимодействием, сохраняя богатое моделирование релевантности через перекрестное внимание. Мы реализовали KaLM-Reranker-V1 в трех размерах: Nano, Small и Large, с 0,27 млрд, 1 млрд и 4 млрд активируемых параметров соответственно. Обширные эксперименты на BEIR, MIRACL и LMEB показывают, что KaLM-Reranker-V1 достигает высокой производительности реранжирования с превосходной эффективностью. На BEIR KaLM-Reranker-V1 демонстрирует передовые результаты, наравне с такими сильными промышленными моделями, как серия Qwen3-Reranker; на MIRACL, несмотря на отсутствие обширного обучения на многоязычных данных, KaLM-Reranker-V1 по-прежнему показывает отличные результаты реранжирования. Более того, на LMEB модели реранжирования демонстрируют явное преимущество, и даже модель Nano с 0,27 млрд параметров остается конкурентоспособной по сравнению с моделями эмбеддингов размером 7–12 млрд параметров.
English
As retrieval systems scale, high-quality reranking becomes increasingly important. However, most existing rerankers, whether encoder-based or decoder-based, jointly encode the query and passage, tightly coupling their computation and limiting deployment efficiency as well as flexibility. We present KaLM-Reranker-V1, a fast but not late-interaction (FBNL) reranker that decouples query and passage computation while retaining expressive relevance modeling. Built on an encoder-decoder architecture, KaLM-Reranker-V1 uses the encoder to pre-encode passages with Matryoshka embedding pooling, while the decoder models the system instruction, user instruction, and query intent; cross-attention then captures relevance between the query context and passage representations. This design makes KaLM-Reranker-V1 efficient through decoupled passage encoding, yet not late interaction, by preserving rich relevance modeling through cross-attention. We instantiate KaLM-Reranker-V1 in three sizes, Nano, Small, and Large, with 0.27B, 1B, and 4B activated parameters, respectively. Extensive experiments on BEIR, MIRACL, and LMEB demonstrate that KaLM-Reranker-V1 achieves strong reranking performance with superior efficiency. On BEIR, KaLM-Reranker-V1 achieves state-of-the-art performance, on par with strong industrial models such as the Qwen3-Reranker series; on MIRACL, despite not being extensively trained on multilingual data, KaLM-Reranker-V1 still shows excellent reranking performance. Moreover, on LMEB, reranking models demonstrate a clear advantage, with even the 0.27B Nano model remaining competitive with 7-12B embedding models.