ChatPaper.aiChatPaper

ECI_{sem}: Información Contrastiva Efectiva Residual Semántica para Evaluar Negativos Difíciles

ECI_{sem}: Semantic Residual Effective Contrastive Information for Evaluating Hard Negatives

June 5, 2026
Autores: Aarush Sinha, Rahul Seetharaman, Aman Bansal
cs.AI

Resumen

La selección de fuentes negativas duras para la recuperación densa generalmente se decide solo después del ajuste fino y la evaluación descendente. Proponemos ECI_{sem}, una variante residual semántica de la Información Contrastiva Efectiva (ECI) que clasifica las fuentes negativas candidatas utilizando incrustaciones congeladas del codificador objetivo. ECI_{sem} no requiere entrenamiento, pero sí etiquetas: cada ejemplo puntuado necesita una consulta, un positivo etiquetado y un negativo candidato explícito. ECI_{sem} construye una matriz de información residual ponderada a partir de la consistencia del objetivo, la localidad semántica, la residualidad léxica y un objetivo de diversidad de log-determinante. En las fuentes negativas de MS MARCO, ECI_{sem} intra-familia clasifica los negativos de LLM como los más altos entre las fuentes no híbridas y Dense+LLM como los más altos entre las fuentes híbridas, coincidiendo con los resultados agregados más fuertes de transferencia BEIR en DistilBERT, E5-base y Contriever. Las ablaciones controladas muestran que esta alineación depende del uso de la familia del codificador objetivo, mientras que ablaciones adicionales muestran estabilidad ante perturbaciones en el tamaño de muestra, la temperatura, el tokenizador y el corpus IDF. La teoría ofrece un vínculo lineal localizado con la reducción de la pérdida, mientras que el estudio empírico trata la evaluación descendente como la prueba final.
English
Hard-negative source selection for dense retrieval is usually decided only after fine-tuning and downstream evaluation. We propose ECI_{sem}, a semantic residual variant of Effective Contrastive Information (ECI) that ranks candidate negative sources using frozen target-encoder embeddings. ECI_{sem} is training-free, not label-free: each scored example requires a query, a labeled positive, and an explicit candidate negative. ECI_{sem} builds a weighted residual information matrix from target consistency, semantic locality, lexical residuality, and a log-determinant diversity objective. On MS MARCO negative sources, in-family ECI_{sem} ranks LLM negatives highest among non-hybrid sources and Dense+LLM highest among hybrid sources, matching the strongest aggregate BEIR transfer results across DistilBERT, E5-base, and Contriever. Controlled ablations show that this alignment depends on using the target encoder family, while additional ablations show stability under sample-size, temperature, tokenizer, and IDF-corpus perturbations. The theory gives a local linearized link to loss reduction, while the empirical study treats downstream evaluation as the final test.