ChatPaper.aiChatPaper

Помимо жестких негативов: важность распределения оценок при дистилляции знаний для плотного поиска

Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

April 6, 2026
Авторы: Youngjoon Jang, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim
cs.AI

Аннотация

Перенос знаний от кросс-энкодера-учителя с помощью дистилляции знаний (Knowledge Distillation, KD) стал стандартной парадигмой для обучения моделей информационного поиска. В то время как существующие исследования в основном сосредоточены на выявлении сложных негативных примеров для улучшения дискриминативности, систематическая композиция обучающих данных и результирующее распределение оценок учителя получили относительно меньше внимания. В данной работе мы подчеркиваем, что фокусировка исключительно на сложных негативах не позволяет студенту обучиться комплексной структуре предпочтений учителя, что потенциально ограничивает способность к обобщению. Для эффективного эмулирования распределения оценок учителя мы предлагаем стратегию стратифицированной выборки, равномерно покрывающую весь спектр оценок. Эксперименты на внутри- и внедоменных бенчмарках подтверждают, что стратифицированная выборка, сохраняющая дисперсию и энтропию оценок учителя, служит надежным базовым методом, значительно превосходящим выборку по топ-K и случайную выборку в различных условиях. Эти результаты позволяют предположить, что суть дистилляции заключается в сохранении всего разнообразия относительных оценок, воспринимаемых учителем.
English
Transferring knowledge from a cross-encoder teacher via Knowledge Distillation (KD) has become a standard paradigm for training retrieval models. While existing studies have largely focused on mining hard negatives to improve discrimination, the systematic composition of training data and the resulting teacher score distribution have received relatively less attention. In this work, we highlight that focusing solely on hard negatives prevents the student from learning the comprehensive preference structure of the teacher, potentially hampering generalization. To effectively emulate the teacher score distribution, we propose a Stratified Sampling strategy that uniformly covers the entire score spectrum. Experiments on in-domain and out-of-domain benchmarks confirm that Stratified Sampling, which preserves the variance and entropy of teacher scores, serves as a robust baseline, significantly outperforming top-K and random sampling in diverse settings. These findings suggest that the essence of distillation lies in preserving the diverse range of relative scores perceived by the teacher.
PDF40April 10, 2026