ChatPaper.aiChatPaper

ECI_{sem} : Information contrastive efficace de résidu sémantique pour l'évaluation des négatifs difficiles

ECI_{sem}: Semantic Residual Effective Contrastive Information for Evaluating Hard Negatives

June 5, 2026
Auteurs: Aarush Sinha, Rahul Seetharaman, Aman Bansal
cs.AI

Résumé

La sélection de sources négatives difficiles pour la recherche dense est généralement décidée seulement après le fine-tuning et l'évaluation en aval. Nous proposons ECI_{sem}, une variante résiduelle sémantique de l'Information Contrastive Effective (ECI), qui classe les sources négatives candidates en utilisant les plongements gelés d'un encodeur cible. ECI_{sem} ne nécessite pas d'entraînement, mais n'est pas sans étiquettes : chaque exemple évalué nécessite une requête, un positif labellisé et un négatif candidat explicite. ECI_{sem} construit une matrice d'information résiduelle pondérée à partir de la cohérence cible, de la localité sémantique, de la résidualité lexicale et d'un objectif de diversité basé sur le log-déterminant. Sur les sources négatives de MS MARCO, ECI_{sem} intra-famille classe les négatifs issus de LLM les plus élevés parmi les sources non hybrides, et Dense+LLM le plus élevé parmi les sources hybrides, correspondant aux meilleurs résultats agrégés de transfert BEIR pour DistilBERT, E5-base et Contriever. Des ablations contrôlées montrent que cet alignement dépend de l'utilisation de la famille d'encodeurs cibles, tandis que des ablations supplémentaires montrent une stabilité face aux perturbations de taille d'échantillon, température, tokenizer et corpus IDF. La théorie établit un lien local linéarisé avec la réduction de la perte, tandis que l'étude empirique considère l'évaluation en aval comme le test final.
English
Hard-negative source selection for dense retrieval is usually decided only after fine-tuning and downstream evaluation. We propose ECI_{sem}, a semantic residual variant of Effective Contrastive Information (ECI) that ranks candidate negative sources using frozen target-encoder embeddings. ECI_{sem} is training-free, not label-free: each scored example requires a query, a labeled positive, and an explicit candidate negative. ECI_{sem} builds a weighted residual information matrix from target consistency, semantic locality, lexical residuality, and a log-determinant diversity objective. On MS MARCO negative sources, in-family ECI_{sem} ranks LLM negatives highest among non-hybrid sources and Dense+LLM highest among hybrid sources, matching the strongest aggregate BEIR transfer results across DistilBERT, E5-base, and Contriever. Controlled ablations show that this alignment depends on using the target encoder family, while additional ablations show stability under sample-size, temperature, tokenizer, and IDF-corpus perturbations. The theory gives a local linearized link to loss reduction, while the empirical study treats downstream evaluation as the final test.