Voorbij Harde Negatieven: Het Belang van Scoreverdeling bij Kennisdistillatie voor Dichte Retrieval

Samenvatting

Het overdragen van kennis van een cross-encoder leraar via Knowledge Distillation (KD) is een standaardparadigma geworden voor het trainen van retrievalsystemen. Hoewel bestaande onderzoeken zich grotendeels hebben gericht op het delven van harde negatieven om de discriminatie te verbeteren, hebben de systematische samenstelling van de trainingsdata en de resulterende scoreverdeling van de leraar relatief minder aandacht gekregen. In dit werk benadrukken wij dat een focus uitsluitend op harde negatieven de student verhindert de uitgebreide preferentiestructuur van de leraar te leren, wat de generalisatie kan belemmeren. Om de scoreverdeling van de leraar effectief na te bootsen, stellen wij een Gestratificeerde Steekproefstrategie voor die het volledige scorespectrum uniform afdekt. Experimenten op in-domein en out-of-domein benchmarks bevestigen dat Gestratificeerde Steekproeven, die de variantie en entropie van de leraarscores behouden, fungeert als een robuuste basislijn en significant beter presteert dan top-K en aselecte steekproeven in uiteenlopende settings. Deze bevindingen suggereren dat de essentie van distillatie ligt in het behouden van het diverse bereik aan relatieve scores zoals waargenomen door de leraar.

English

Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.

Voorbij Harde Negatieven: Het Belang van Scoreverdeling bij Kennisdistillatie voor Dichte Retrieval

Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

Samenvatting

Support