ECI_{sem}: Semantische Residuale Effektive Kontrastive Information zur Bewertung von harten Negativbeispielen
ECI_{sem}: Semantic Residual Effective Contrastive Information for Evaluating Hard Negatives
June 5, 2026
Autoren: Aarush Sinha, Rahul Seetharaman, Aman Bansal
cs.AI
Zusammenfassung
Die Auswahl von Hard-Negative-Quellen für das dichte Retrieval wird üblicherweise erst nach dem Fine-Tuning und der nachgelagerten Evaluierung entschieden. Wir schlagen ECI_{sem} vor, eine semantische Residualvariante von Effective Contrastive Information (ECI), die Kandidaten-Negativquellen mithilfe von eingefrorenen Target-Encoder-Embeddings einstuft. ECI_{sem} ist trainingsfrei, aber nicht label-frei: Jedes bewertete Beispiel erfordert eine Query, ein gelabeltes Positiv und ein explizites Kandidaten-Negativ. ECI_{sem} erstellt eine gewichtete Residueninformationsmatrix aus Target-Konsistenz, semantischer Lokalität, lexikalischer Residualität und einem Log-Determinanten-Diversitätsziel. Auf MS MARCO-Negativquellen stuft familieninterne ECI_{sem} LLM-Negative unter den nicht-hybriden Quellen am höchsten ein und Dense+LLM unter den hybriden Quellen am höchsten, was den stärksten aggregierten BEIR-Transferergebnissen über DistilBERT, E5-base und Contriever entspricht. Kontrollierte Ablationen zeigen, dass diese Ausrichtung von der Verwendung der Target-Encoder-Familie abhängt, während zusätzliche Ablationen Stabilität unter Stichprobengröße-, Temperatur-, Tokenizer- und IDF-Korpus-Störungen zeigen. Die Theorie liefert eine lokal linearisierte Verbindung zur Verlustreduktion, während die empirische Studie die nachgelagerte Evaluierung als abschließenden Test behandelt.
English
Hard-negative source selection for dense retrieval is usually decided only after fine-tuning and downstream evaluation. We propose ECI_{sem}, a semantic residual variant of Effective Contrastive Information (ECI) that ranks candidate negative sources using frozen target-encoder embeddings. ECI_{sem} is training-free, not label-free: each scored example requires a query, a labeled positive, and an explicit candidate negative. ECI_{sem} builds a weighted residual information matrix from target consistency, semantic locality, lexical residuality, and a log-determinant diversity objective. On MS MARCO negative sources, in-family ECI_{sem} ranks LLM negatives highest among non-hybrid sources and Dense+LLM highest among hybrid sources, matching the strongest aggregate BEIR transfer results across DistilBERT, E5-base, and Contriever. Controlled ablations show that this alignment depends on using the target encoder family, while additional ablations show stability under sample-size, temperature, tokenizer, and IDF-corpus perturbations. The theory gives a local linearized link to loss reduction, while the empirical study treats downstream evaluation as the final test.