ハードネガティブを超えて:密な検索における知識蒸留におけるスコア分布の重要性
Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval
April 6, 2026
著者: Youngjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim
cs.AI
要旨
クロスエンコーダ教師モデルからの知識を知識蒸留(KD)によって転移することは、検索モデルを訓練するための標準的な手法となっている。既存研究は主に、識別性能を向上させるためのハードネガティブマイニングに焦点を当ててきたが、訓練データの体系的構成と、それによって得られる教師スコア分布には比較的注目が集まっていない。本研究では、ハードネガティブのみに焦点を当てることは、学生モデルが教師の包括的な選好構造を学習するのを妨げ、汎化性能を損なう可能性があることを指摘する。教師スコア分布を効果的に模倣するために、スコアスペクトル全体を均一にカバーする階層化サンプリング戦略を提案する。ドメイン内およびドメイン外ベンチマークによる実験により、教師スコアの分散とエントロピーを保持する階層化サンプリングが、多様な設定においてトップKサンプリングやランダムサンプリングを大きく上回る、頑健なベースラインとして機能することを確認した。これらの知見は、蒸留の本質が、教師が認識する相対スコアの多様な範囲を保持することにあることを示唆している。
English
Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.