Au-delà des négatifs difficiles : l'importance de la distribution des scores dans la distillation des connaissances pour la recherche dense
Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval
April 6, 2026
Auteurs: Youngjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim
cs.AI
Résumé
Le transfert de connaissances d'un enseignant cross-encoder par Distillation de Connaissances (KD) est devenu un paradigme standard pour l'entraînement des modèles de recherche. Si les études existantes se sont largement concentrées sur l'extraction de négatifs difficiles pour améliorer la discrimination, la composition systématique des données d'entraînement et la distribution des scores de l'enseignant qui en résulte ont reçu relativement moins d'attention. Dans ce travail, nous soulignons que se concentrer uniquement sur les négatifs difficiles empêche l'étudiant d'apprendre la structure de préférence complète de l'enseignant, ce qui peut nuire à la généralisation. Pour imiter efficacement la distribution des scores de l'enseignant, nous proposons une stratégie d'Échantillonnage Stratifié qui couvre uniformément l'ensemble du spectre des scores. Les expériences sur des benchmarks en domaine et hors domaine confirment que l'Échantillonnage Stratifié, qui préserve la variance et l'entropie des scores de l'enseignant, constitue une base de référence robuste, surpassant significativement l'échantillonnage par top-K et l'échantillonnage aléatoire dans divers contextes. Ces résultats suggèrent que l'essence de la distillation réside dans la préservation de la gamme diversifiée des scores relatifs perçus par l'enseignant.
English
Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.