Más allá de los ejemplos negativos difíciles: La importancia de la distribución de puntuaciones en la destilación de conocimiento para la recuperación densa

Resumen

La transferencia de conocimiento desde un profesor cross-encoder mediante Distilación de Conocimiento (KD) se ha convertido en un paradigma estándar para entrenar modelos de recuperación. Si bien los estudios existentes se han centrado principalmente en la minería de negativos difíciles para mejorar la discriminación, la composición sistemática de los datos de entrenamiento y la distribución de puntuaciones del profesor resultante han recibido relativamente menos atención. En este trabajo, destacamos que centrarse únicamente en negativos difíciles impide que el estudiante aprenda la estructura de preferencia integral del profesor, lo que potencialmente perjudica la generalización. Para emular eficazmente la distribución de puntuaciones del profesor, proponemos una estrategia de Muestreo Estratificado que cubre uniformemente todo el espectro de puntuaciones. Los experimentos en benchmarks de dominio interno y externo confirman que el Muestreo Estratificado, que preserva la varianza y entropía de las puntuaciones del profesor, sirve como una línea base robusta, superando significativamente al muestreo top-K y aleatorio en diversos entornos. Estos hallazgos sugieren que la esencia de la destilación radica en preservar la diversa gama de puntuaciones relativas percibidas por el profesor.

English

Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.

Más allá de los ejemplos negativos difíciles: La importancia de la distribución de puntuaciones en la destilación de conocimiento para la recuperación densa

Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

Resumen

Support