ECI_{sem}: Семантическая остаточная эффективная контрастивная информация для оценки трудных отрицательных примеров

Аннотация

Выбор источников жестких негативных примеров для плотного поиска обычно определяется только после тонкой настройки и последующей оценки. Мы предлагаем ECI_{sem} — вариант семантического остатка эффективной контрастивной информации (ECI), который ранжирует кандидатов-источников негативных примеров с использованием замороженных эмбеддингов целевого кодировщика. ECI_{sem} не требует обучения, но требует разметки: каждый оцениваемый пример включает запрос, размеченный положительный пример и явный кандидат-негатив. ECI_{sem} строит взвешенную матрицу остаточной информации на основе целевой согласованности, семантической локальности, лексической остаточности и целевой функции разнообразия с лог-детерминантом. На источниках негативных примеров MS MARCO внутрисемейный ECI_{sem} ранжирует негативные примеры от LLM как наилучшие среди негибридных источников, а Dense+LLM — как наилучшие среди гибридных, что совпадает с сильнейшими совокупными результатами переноса на BEIR для DistilBERT, E5-base и Contriever. Контролируемые абляции показывают, что это соответствие зависит от использования семейства целевых кодировщиков, а дополнительные абляции демонстрируют устойчивость к возмущениям размера выборки, температуры, токенизатора и IDF-корпуса. Теория дает локальную линеаризованную связь со снижением потерь, в то время как эмпирическое исследование рассматривает последующую оценку как финальный тест.

English

Hard-negative source selection for dense retrieval is usually decided only after fine-tuning and downstream evaluation. We propose ECI_{sem}, a semantic residual variant of Effective Contrastive Information (ECI) that ranks candidate negative sources using frozen target-encoder embeddings. ECI_{sem} is training-free, not label-free: each scored example requires a query, a labeled positive, and an explicit candidate negative. ECI_{sem} builds a weighted residual information matrix from target consistency, semantic locality, lexical residuality, and a log-determinant diversity objective. On MS MARCO negative sources, in-family ECI_{sem} ranks LLM negatives highest among non-hybrid sources and Dense+LLM highest among hybrid sources, matching the strongest aggregate BEIR transfer results across DistilBERT, E5-base, and Contriever. Controlled ablations show that this alignment depends on using the target encoder family, while additional ablations show stability under sample-size, temperature, tokenizer, and IDF-corpus perturbations. The theory gives a local linearized link to loss reduction, while the empirical study treats downstream evaluation as the final test.