Oltre i Negativi Difficili: L'Importanza della Distribuzione dei Punteggi nella Distillazione della Conoscenza per il Recupero Denso

Abstract

Il trasferimento di conoscenza da un insegnante cross-encoder tramite Distillazione della Conoscenza (KD) è diventato un paradigma standard per l'addestramento di modelli di retrieval. Mentre gli studi esistenti si sono concentrati prevalentemente sull'estrazione di negativi difficili per migliorare la discriminazione, la composizione sistematica dei dati di addestramento e la conseguente distribuzione dei punteggi dell'insegnante hanno ricevuto un'attenzione relativamente minore. In questo lavoro, evidenziamo che concentrarsi esclusivamente sui negativi difficili impedisce allo studente di apprendere la struttura completa delle preferenze dell'insegnante, rischiando di compromettere la generalizzazione. Per emulare efficacemente la distribuzione dei punteggi dell'insegnante, proponiamo una strategia di Campionamento Stratificato che copre uniformemente l'intero spettro dei punteggi. Esperimenti su benchmark in-dominio e out-of-domain confermano che il Campionamento Stratificato, che preserva la varianza e l'entropia dei punteggi dell'insegnante, funge da baseline robusta, superando significativamente il campionamento top-K e quello casuale in contesti diversificati. Questi risultati suggeriscono che l'essenza della distillazione risiede nel preservare l'ampia gamma di punteggi relativi percepiti dall'insegnante.

English

Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.

Oltre i Negativi Difficili: L'Importanza della Distribuzione dei Punteggi nella Distillazione della Conoscenza per il Recupero Denso

Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

Abstract

Support