ChatPaper.aiChatPaper

ECI_{sem}: Informação Contrastiva Efetiva Residual Semântica para Avaliar Negativos Difíceis

ECI_{sem}: Semantic Residual Effective Contrastive Information for Evaluating Hard Negatives

June 5, 2026
Autores: Aarush Sinha, Rahul Seetharaman, Aman Bansal
cs.AI

Resumo

A seleção de fontes negativas difíceis para recuperação densa é geralmente decidida apenas após o ajuste fino e a avaliação downstream. Propomos o ECI_{sem}, uma variante residual semântica da Informação Contrastiva Eficaz (ECI) que classifica fontes negativas candidatas usando embeddings congelados do codificador-alvo. O ECI_{sem} é livre de treinamento, mas não livre de rótulos: cada exemplo pontuado requer uma consulta, um positivo rotulado e um negativo candidato explícito. O ECI_{sem} constrói uma matriz de informação residual ponderada a partir de consistência alvo, localidade semântica, residualidade lexical e um objetivo de diversidade de log-determinante. Em fontes negativas do MS MARCO, o ECI_{sem} intra-família classifica os negativos de LLM como os mais altos entre as fontes não híbridas e Dense+LLM como o mais alto entre as fontes híbridas, igualando os resultados agregados mais fortes de transferência BEIR em DistilBERT, E5-base e Contriever. Ablações controladas mostram que esse alinhamento depende do uso da família do codificador-alvo, enquanto ablações adicionais demonstram estabilidade sob perturbações de tamanho da amostra, temperatura, tokenizador e corpus de IDF. A teoria fornece uma ligação linearizada local com a redução de perda, enquanto o estudo empírico trata a avaliação downstream como o teste final.
English
Hard-negative source selection for dense retrieval is usually decided only after fine-tuning and downstream evaluation. We propose ECI_{sem}, a semantic residual variant of Effective Contrastive Information (ECI) that ranks candidate negative sources using frozen target-encoder embeddings. ECI_{sem} is training-free, not label-free: each scored example requires a query, a labeled positive, and an explicit candidate negative. ECI_{sem} builds a weighted residual information matrix from target consistency, semantic locality, lexical residuality, and a log-determinant diversity objective. On MS MARCO negative sources, in-family ECI_{sem} ranks LLM negatives highest among non-hybrid sources and Dense+LLM highest among hybrid sources, matching the strongest aggregate BEIR transfer results across DistilBERT, E5-base, and Contriever. Controlled ablations show that this alignment depends on using the target encoder family, while additional ablations show stability under sample-size, temperature, tokenizer, and IDF-corpus perturbations. The theory gives a local linearized link to loss reduction, while the empirical study treats downstream evaluation as the final test.