Além dos Negativos Difíceis: A Importância da Distribuição de Pontuação na Distilação de Conhecimento para Recuperação Densada
Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval
April 6, 2026
Autores: Youngjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim
cs.AI
Resumo
A transferência de conhecimento de um professor cross-encoder via Distilação de Conhecimento (KD) tornou-se um paradigma padrão para o treinamento de modelos de recuperação de informação. Embora os estudos existentes tenham se concentrado amplamente na mineração de negativos difíceis para melhorar a discriminação, a composição sistemática dos dados de treinamento e a distribuição de pontuações do professor resultante receberam relativamente menos atenção. Neste trabalho, destacamos que focar apenas em negativos difíceis impede o aluno de aprender a estrutura de preferência abrangente do professor, potencialmente prejudicando a generalização. Para emular eficazmente a distribuição de pontuações do professor, propomos uma estratégia de Amostragem Estratificada que cobre uniformemente todo o espectro de pontuações. Experimentos em benchmarks de domínio interno e externo confirmam que a Amostragem Estratificada, que preserva a variância e a entropia das pontuações do professor, serve como uma linha de base robusta, superando significativamente a amostragem top-K e aleatória em diversos cenários. Essas descobertas sugerem que a essência da destilação reside em preservar a diversidade de pontuações relativas percebidas pelo professor.
English
Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.