ChatPaper.aiChatPaper

장문 컨텍스트 처리를 위한 질의 중심 메모리 인식 리랭커

Query-focused and Memory-aware Reranker for Long Context Processing

February 12, 2026
저자: Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou
cs.AI

초록

기존 대규모 언어 모델의 검색 헤드 분석을 기반으로, 본 연구에서는 선별된 헤드의 어텐션 점수를 활용하여 문서-질문 관련성을 추정하도록 모델을 학습하는 새로운 재순위 지정 프레임워크를 제안합니다. 이 접근법은 순위 지정 과정에서 후보 단편 목록 전체의 포괄적 정보를 활용하는 리스트와이즈(listwise) 해결책을 제공합니다. 동시에 자연스럽게 연속적인 관련성 점수를 생성하여 리커트 척도(Likert-scale) 감독 없이도 임의의 검색 데이터셋에서 학습이 가능합니다. 우리의 프레임워크는 경량이면서 효과적이며, 강력한 성능을 달성하기 위해 소규모 모델(예: 40억 개 매개변수)만으로도 충분합니다. 광범위한 실험을 통해 본 방법이 위키백과 및 장편 서사 데이터셋을 포함한 여러 분야에서 기존 최첨단 포인트와이즈(pointwise) 및 리스트와이즈 재순위 지정기를 능가함을 입증했습니다. 또한 대화 이해와 메모리 사용 능력을 평가하는 LoCoMo 벤치마크에서 새로운 최첨단 성능을 달성했습니다. 더 나아가 본 프레임워크가 유연한 확장을 지원함을 확인했습니다. 예를 들어, 후보 문서에 맥락 정보를 추가하면 순위 지정 정확도가 더욱 개선되며, 중간 계층의 어텐션 헤드를 학습하면 성능 저하 없이 효율성을 향상시킬 수 있습니다.
English
Built upon the existing analysis of retrieval heads in large language models, we propose an alternative reranking framework that trains models to estimate passage-query relevance using the attention scores of selected heads. This approach provides a listwise solution that leverages holistic information within the entire candidate shortlist during ranking. At the same time, it naturally produces continuous relevance scores, enabling training on arbitrary retrieval datasets without requiring Likert-scale supervision. Our framework is lightweight and effective, requiring only small-scale models (e.g., 4B parameters) to achieve strong performance. Extensive experiments demonstrate that our method outperforms existing state-of-the-art pointwise and listwise rerankers across multiple domains, including Wikipedia and long narrative datasets. It further establishes a new state-of-the-art on the LoCoMo benchmark that assesses the capabilities of dialogue understanding and memory usage. We further demonstrate that our framework supports flexible extensions. For example, augmenting candidate passages with contextual information further improves ranking accuracy, while training attention heads from middle layers enhances efficiency without sacrificing performance.
PDF574March 28, 2026