Оптимизация того, что важно: AUC-ориентированное обучение для устойчивого нейронного поиска
Optimizing What Matters: AUC-Driven Learning for Robust Neural Retrieval
September 30, 2025
Авторы: Nima Sheikholeslami, Erfan Hosseini, Patrice Bechard, Srivatsava Daruru, Sai Rajeswar
cs.AI
Аннотация
Двухкодерные модели извлечения основываются на принципе, что релевантные документы должны получать более высокие оценки, чем нерелевантные, для данного запроса. Однако доминирующая цель Noise Contrastive Estimation (NCE), лежащая в основе контрастивной функции потерь, оптимизирует смягченный суррогат ранжирования, который, как мы строго доказываем, принципиально не учитывает качество разделения оценок и не связан с AUC (Area Under the Curve). Это несоответствие приводит к плохой калибровке и субоптимальной производительности в таких задачах, как генерация с использованием извлечения (RAG). Чтобы устранить это фундаментальное ограничение, мы представляем функцию потерь MW, новую цель обучения, которая максимизирует статистику Манна-Уитни, математически эквивалентную площади под ROC-кривой (AUC). Функция потерь MW стимулирует правильное ранжирование каждой пары положительных и отрицательных примеров, минимизируя бинарную кросс-энтропию для разностей оценок. Мы предоставляем теоретические гарантии, что функция потерь MW непосредственно ограничивает AoC (Area under the Curve), лучше согласуя оптимизацию с целями извлечения. Мы также продвигаем ROC-кривые и AUC как естественные диагностические инструменты без порогов для оценки калибровки и качества ранжирования моделей извлечения. Эмпирически модели, обученные с использованием функции потерь MW, стабильно превосходят контрастивные аналоги по AUC и стандартным метрикам извлечения. Наши эксперименты показывают, что функция потерь MW является эмпирически более эффективной альтернативой контрастивной функции потерь, обеспечивая лучше калиброванные и более дискриминативные модели извлечения для критически важных приложений, таких как RAG.
English
Dual-encoder retrievers depend on the principle that relevant documents
should score higher than irrelevant ones for a given query. Yet the dominant
Noise Contrastive Estimation (NCE) objective, which underpins Contrastive Loss,
optimizes a softened ranking surrogate that we rigorously prove is
fundamentally oblivious to score separation quality and unrelated to AUC. This
mismatch leads to poor calibration and suboptimal performance in downstream
tasks like retrieval-augmented generation (RAG). To address this fundamental
limitation, we introduce the MW loss, a new training objective that maximizes
the Mann-Whitney U statistic, which is mathematically equivalent to the Area
under the ROC Curve (AUC). MW loss encourages each positive-negative pair to be
correctly ranked by minimizing binary cross entropy over score differences. We
provide theoretical guarantees that MW loss directly upper-bounds the AoC,
better aligning optimization with retrieval goals. We further promote ROC
curves and AUC as natural threshold free diagnostics for evaluating retriever
calibration and ranking quality. Empirically, retrievers trained with MW loss
consistently outperform contrastive counterparts in AUC and standard retrieval
metrics. Our experiments show that MW loss is an empirically superior
alternative to Contrastive Loss, yielding better-calibrated and more
discriminative retrievers for high-stakes applications like RAG.