Optimiser ce qui compte : Apprentissage axé sur l'AUC pour une recherche neuronale robuste
Optimizing What Matters: AUC-Driven Learning for Robust Neural Retrieval
September 30, 2025
papers.authors: Nima Sheikholeslami, Erfan Hosseini, Patrice Bechard, Srivatsava Daruru, Sai Rajeswar
cs.AI
papers.abstract
Les systèmes de récupération à double encodeur reposent sur le principe que les documents pertinents devraient obtenir un score plus élevé que les documents non pertinents pour une requête donnée. Cependant, l'objectif dominant de l'estimation contrastive par bruit (Noise Contrastive Estimation, NCE), qui sous-tend la perte contrastive, optimise un substitut de classement adouci dont nous démontrons rigoureusement qu'il est fondamentalement insensible à la qualité de séparation des scores et sans lien avec l'AUC (aire sous la courbe ROC). Cette inadéquation entraîne une mauvaise calibration et des performances sous-optimales dans des tâches en aval telles que la génération assistée par récupération (Retrieval-Augmented Generation, RAG). Pour remédier à cette limitation fondamentale, nous introduisons la perte MW, un nouvel objectif d'entraînement qui maximise la statistique U de Mann-Whitney, mathématiquement équivalente à l'aire sous la courbe ROC (AUC). La perte MW encourage chaque paire positif-négatif à être correctement classée en minimisant l'entropie croisée binaire sur les différences de scores. Nous fournissons des garanties théoriques que la perte MW borne directement l'AoC (Area under the Curve), alignant ainsi mieux l'optimisation avec les objectifs de récupération. Nous promouvons également les courbes ROC et l'AUC comme des diagnostics naturels sans seuil pour évaluer la calibration et la qualité du classement des systèmes de récupération. Empiriquement, les systèmes de récupération entraînés avec la perte MW surpassent systématiquement leurs homologues contrastifs en termes d'AUC et de métriques de récupération standard. Nos expériences montrent que la perte MW est une alternative empiriquement supérieure à la perte contrastive, produisant des systèmes de récupération mieux calibrés et plus discriminants pour des applications critiques comme la RAG.
English
Dual-encoder retrievers depend on the principle that relevant documents
should score higher than irrelevant ones for a given query. Yet the dominant
Noise Contrastive Estimation (NCE) objective, which underpins Contrastive Loss,
optimizes a softened ranking surrogate that we rigorously prove is
fundamentally oblivious to score separation quality and unrelated to AUC. This
mismatch leads to poor calibration and suboptimal performance in downstream
tasks like retrieval-augmented generation (RAG). To address this fundamental
limitation, we introduce the MW loss, a new training objective that maximizes
the Mann-Whitney U statistic, which is mathematically equivalent to the Area
under the ROC Curve (AUC). MW loss encourages each positive-negative pair to be
correctly ranked by minimizing binary cross entropy over score differences. We
provide theoretical guarantees that MW loss directly upper-bounds the AoC,
better aligning optimization with retrieval goals. We further promote ROC
curves and AUC as natural threshold free diagnostics for evaluating retriever
calibration and ranking quality. Empirically, retrievers trained with MW loss
consistently outperform contrastive counterparts in AUC and standard retrieval
metrics. Our experiments show that MW loss is an empirically superior
alternative to Contrastive Loss, yielding better-calibrated and more
discriminative retrievers for high-stakes applications like RAG.