Jenseits harter Negative: Die Bedeutung der Score-Verteilung bei der Wissensdistillation für dichtes Retrieval

Zusammenfassung

Die Übertragung von Wissen von einem Cross-Encoder-Lehrermodell mittels Knowledge Distillation (KD) hat sich zu einem Standardparadigma für das Training von Retrieval-Modellen entwickelt. Während sich bestehende Studien weitgehend auf das Mining harter Negativbeispiele zur Verbesserung der Diskriminierungsfähigkeit konzentriert haben, erhielten die systematische Zusammensetzung der Trainingsdaten und die daraus resultierende Score-Verteilung des Lehrers relativ wenig Aufmerksamkeit. In dieser Arbeit zeigen wir auf, dass die alleinige Fokussierung auf harte Negative den Studenten daran hindert, die umfassende Präferenzstruktur des Lehrers zu erlernen, was die Generalisierungsfähigkeit beeinträchtigen kann. Um die Score-Verteilung des Lehrers effektiv nachzubilden, schlagen wir eine Stratified Sampling-Strategie vor, die das gesamte Scorespektrum gleichmäßig abdeckt. Experimente auf In-Domain- und Out-of-Domain-Benchmarks bestätigen, dass Stratified Sampling, welches die Varianz und Entropie der Teacher-Scores erhält, eine robuste Baseline darstellt und Top-K- sowie Zufallsstichproben in verschiedenen Szenarien signifikant übertrifft. Diese Ergebnisse legen nahe, dass der Kern der Distillation in der Bewahrung der vielfältigen Bandbreite relativer Scores liegt, die vom Lehrer wahrgenommen werden.

English

Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.

Jenseits harter Negative: Die Bedeutung der Score-Verteilung bei der Wissensdistillation für dichtes Retrieval

Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

Zusammenfassung

Support