ChatPaper.aiChatPaper

KaLM-Reranker-V1: 압축 문서 재순위화를 위한 빠르지만 후기적이지 않은 상호작용

KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking

June 22, 2026
저자: Xinping Zhao, Jiaxin Xu, Ziqi Dai, Xin Zhang, Shouzheng Huang, Danyu Tang, Xinshuo Hu, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI

초록

검색 시스템이 확장됨에 따라, 고품질 재순위화의 중요성이 증가하고 있습니다. 그러나 기존의 대부분의 재순위화 모델(인코더 기반 또는 디코더 기반)은 질의와 문서를 함께 인코딩하여 계산을 긴밀하게 결합함으로써 배포 효율성과 유연성을 제한합니다. 본 논문에서는 질의와 문서 계산을 분리하면서도 표현적인 관련성 모델링을 유지하는, 빠르지만 지연 상호작용은 아닌(FBNL) 재순위화 모델인 KaLM-Reranker-V1을 제시합니다. KaLM-Reranker-V1은 인코더-디코더 아키텍처를 기반으로 구축되었으며, 인코더는 마트료시카 임베딩 풀링을 사용하여 문서를 사전 인코딩하고, 디코더는 시스템 명령어, 사용자 명령어 및 질의 의도를 모델링합니다. 그런 다음 교차 어텐션을 통해 질의 컨텍스트와 문서 표현 간의 관련성을 포착합니다. 이 설계는 분리된 문서 인코딩을 통해 KaLM-Reranker-V1을 효율적으로 만드는 동시에, 교차 어텐션을 통해 풍부한 관련성 모델링을 보존함으로써 지연 상호작용이 아니도록 합니다. 본 연구에서는 KaLM-Reranker-V1을 Nano, Small, Large의 세 가지 크기로 구현하였으며, 각각 0.27B, 1B, 4B의 활성화 파라미터를 가집니다. BEIR, MIRACL 및 LMEB에 대한 광범위한 실험을 통해 KaLM-Reranker-V1이 우수한 효율성으로 강력한 재순위화 성능을 달성함을 입증합니다. BEIR에서 KaLM-Reranker-V1은 Qwen3-Reranker 시리즈와 같은 강력한 산업용 모델과 동등한 수준의 최첨단 성능을 달성합니다. MIRACL에서는 다국어 데이터에 대해 광범위하게 훈련되지 않았음에도 불구하고 뛰어난 재순위화 성능을 보여줍니다. 또한 LMEB에서 재순위화 모델은 명확한 이점을 보여주며, 0.27B Nano 모델조차도 7-12B 임베딩 모델과 경쟁력을 유지합니다.
English
As retrieval systems scale, high-quality reranking becomes increasingly important. However, most existing rerankers, whether encoder-based or decoder-based, jointly encode the query and passage, tightly coupling their computation and limiting deployment efficiency as well as flexibility. We present KaLM-Reranker-V1, a fast but not late-interaction (FBNL) reranker that decouples query and passage computation while retaining expressive relevance modeling. Built on an encoder-decoder architecture, KaLM-Reranker-V1 uses the encoder to pre-encode passages with Matryoshka embedding pooling, while the decoder models the system instruction, user instruction, and query intent; cross-attention then captures relevance between the query context and passage representations. This design makes KaLM-Reranker-V1 efficient through decoupled passage encoding, yet not late interaction, by preserving rich relevance modeling through cross-attention. We instantiate KaLM-Reranker-V1 in three sizes, Nano, Small, and Large, with 0.27B, 1B, and 4B activated parameters, respectively. Extensive experiments on BEIR, MIRACL, and LMEB demonstrate that KaLM-Reranker-V1 achieves strong reranking performance with superior efficiency. On BEIR, KaLM-Reranker-V1 achieves state-of-the-art performance, on par with strong industrial models such as the Qwen3-Reranker series; on MIRACL, despite not being extensively trained on multilingual data, KaLM-Reranker-V1 still shows excellent reranking performance. Moreover, on LMEB, reranking models demonstrate a clear advantage, with even the 0.27B Nano model remaining competitive with 7-12B embedding models.