Optimaliseren wat ertoe doet: AUC-gestuurd leren voor robuuste neurale retrievalsystemen
Optimizing What Matters: AUC-Driven Learning for Robust Neural Retrieval
September 30, 2025
Auteurs: Nima Sheikholeslami, Erfan Hosseini, Patrice Bechard, Srivatsava Daruru, Sai Rajeswar
cs.AI
Samenvatting
Dual-encoder retrievers zijn gebaseerd op het principe dat relevante documenten een hogere score moeten krijgen dan irrelevante voor een gegeven zoekopdracht. Echter, het dominante Noise Contrastive Estimation (NCE)-doel, dat ten grondslag ligt aan Contrastive Loss, optimaliseert een verzachte rangschikkingssurrogaat waarvan we rigoureus aantonen dat het fundamenteel onverschillig is voor de kwaliteit van scorescheiding en geen verband houdt met AUC. Deze mismatch leidt tot slechte kalibratie en suboptimale prestaties in downstream taken zoals retrieval-augmented generation (RAG). Om deze fundamentele beperking aan te pakken, introduceren we de MW-loss, een nieuwe trainingsdoelstelling die de Mann-Whitney U-statistiek maximaliseert, wat wiskundig equivalent is aan het gebied onder de ROC-curve (AUC). MW-loss stimuleert dat elk positief-negatief paar correct wordt gerangschikt door de binaire kruisentropie over scoreverschillen te minimaliseren. We bieden theoretische garanties dat MW-loss direct een bovengrens vormt voor de AoC, waardoor de optimalisatie beter aansluit bij de doelstellingen van retrieval. We bevorderen verder ROC-curven en AUC als natuurlijke, drempelvrije diagnostische hulpmiddelen voor het evalueren van kalibratie en rangschikkingskwaliteit van retrievers. Empirisch presteren retrievers die zijn getraind met MW-loss consistent beter dan tegenhangers met contrastive loss in AUC en standaard retrieval-metrics. Onze experimenten tonen aan dat MW-loss een empirisch superieur alternatief is voor Contrastive Loss, wat resulteert in beter gekalibreerde en meer onderscheidende retrievers voor hoogwaardige toepassingen zoals RAG.
English
Dual-encoder retrievers depend on the principle that relevant documents
should score higher than irrelevant ones for a given query. Yet the dominant
Noise Contrastive Estimation (NCE) objective, which underpins Contrastive Loss,
optimizes a softened ranking surrogate that we rigorously prove is
fundamentally oblivious to score separation quality and unrelated to AUC. This
mismatch leads to poor calibration and suboptimal performance in downstream
tasks like retrieval-augmented generation (RAG). To address this fundamental
limitation, we introduce the MW loss, a new training objective that maximizes
the Mann-Whitney U statistic, which is mathematically equivalent to the Area
under the ROC Curve (AUC). MW loss encourages each positive-negative pair to be
correctly ranked by minimizing binary cross entropy over score differences. We
provide theoretical guarantees that MW loss directly upper-bounds the AoC,
better aligning optimization with retrieval goals. We further promote ROC
curves and AUC as natural threshold free diagnostics for evaluating retriever
calibration and ranking quality. Empirically, retrievers trained with MW loss
consistently outperform contrastive counterparts in AUC and standard retrieval
metrics. Our experiments show that MW loss is an empirically superior
alternative to Contrastive Loss, yielding better-calibrated and more
discriminative retrievers for high-stakes applications like RAG.