ECI_{sem}: Semantische Residuele Effectieve Contrastieve Informatie voor het Evalueren van Harde Negatieven
ECI_{sem}: Semantic Residual Effective Contrastive Information for Evaluating Hard Negatives
June 5, 2026
Auteurs: Aarush Sinha, Rahul Seetharaman, Aman Bansal
cs.AI
Samenvatting
De selectie van hard-negatieve bronnen voor dense retrieval wordt gewoonlijk pas na fine-tuning en downstremevaluatie bepaald. Wij stellen ECI_{sem} voor, een semantische residuele variant van Effective Contrastive Information (ECI), die kandidaat-negatieve bronnen rangschikt met behulp van ingevroren target-encoder-embeddings. ECI_{sem} is trainingsvrij, maar niet labelvrij: elk gescoord voorbeeld vereist een query, een gelabeld positief en een expliciet kandidaat-negatief. ECI_{sem} bouwt een gewogen residuele informatiematrix op uit targetconsistentie, semantische lokaliteit, lexicale residualiteit en een log-determinant diversiteitsobjectief. Op MS MARCO-negatieve bronnen rangschikt in-family ECI_{sem} LLM-negatieven het hoogst onder niet-hybride bronnen en Dense+LLM het hoogst onder hybride bronnen, wat overeenkomt met de sterkste geaggregeerde BEIR-transferresultaten over DistilBERT, E5-base en Contriever. Gecontroleerde ablatiestudies tonen aan dat deze overeenstemming afhangt van het gebruik van de target-encoderfamilie, terwijl aanvullende ablatiestudies stabiliteit tonen onder variaties in steekproefgrootte, temperatuur, tokenizer en IDF-corpus. De theorie geeft een lokaal gelineariseerd verband met verliesreductie, terwijl de empirische studie downstremevaluatie als de uiteindelijke test beschouwt.
English
Hard-negative source selection for dense retrieval is usually decided only after fine-tuning and downstream evaluation. We propose ECI_{sem}, a semantic residual variant of Effective Contrastive Information (ECI) that ranks candidate negative sources using frozen target-encoder embeddings. ECI_{sem} is training-free, not label-free: each scored example requires a query, a labeled positive, and an explicit candidate negative. ECI_{sem} builds a weighted residual information matrix from target consistency, semantic locality, lexical residuality, and a log-determinant diversity objective. On MS MARCO negative sources, in-family ECI_{sem} ranks LLM negatives highest among non-hybrid sources and Dense+LLM highest among hybrid sources, matching the strongest aggregate BEIR transfer results across DistilBERT, E5-base, and Contriever. Controlled ablations show that this alignment depends on using the target encoder family, while additional ablations show stability under sample-size, temperature, tokenizer, and IDF-corpus perturbations. The theory gives a local linearized link to loss reduction, while the empirical study treats downstream evaluation as the final test.