중요한 것 최적화하기: 강건한 신경 검색을 위한 AUC 주도 학습
Optimizing What Matters: AUC-Driven Learning for Robust Neural Retrieval
September 30, 2025
저자: Nima Sheikholeslami, Erfan Hosseini, Patrice Bechard, Srivatsava Daruru, Sai Rajeswar
cs.AI
초록
이중 인코더 검색기는 주어진 쿼리에 대해 관련 문서가 비관련 문서보다 더 높은 점수를 받아야 한다는 원리에 의존한다. 그러나 대조 손실(Contrastive Loss)의 기반이 되는 지배적인 노이즈 대조 추정(Noise Contrastive Estimation, NCE) 목적 함수는 완화된 순위 대리 함수를 최적화하며, 이는 점수 분리 품질과 AUC(Area Under the Curve)와 근본적으로 무관하다는 것을 엄밀히 증명한다. 이러한 불일치는 검색 증강 생성(Retrieval-Augmented Generation, RAG)과 같은 다운스트림 작업에서 불량한 보정과 차선의 성능으로 이어진다. 이러한 근본적인 한계를 해결하기 위해, 우리는 ROC 곡선 아래 면적(AUC)과 수학적으로 동일한 Mann-Whitney U 통계량을 최대화하는 새로운 훈련 목적 함수인 MW 손실을 소개한다. MW 손실은 점수 차이에 대한 이진 교차 엔트로피를 최소화함으로써 각 긍정-부정 쌍이 올바르게 순위 매겨지도록 장려한다. 우리는 MW 손실이 AoC(Area under the Curve)를 직접 상한선으로 둠으로써 최적화를 검색 목표와 더 잘 일치시킨다는 이론적 보장을 제공한다. 또한, 우리는 검색기 보정 및 순위 품질을 평가하기 위한 자연스러운 임계값 없는 진단 도구로서 ROC 곡선과 AUC를 더욱 촉진한다. 실증적으로, MW 손실로 훈련된 검색기는 AUC 및 표준 검색 메트릭에서 대조 손실을 사용한 검색기를 지속적으로 능가한다. 우리의 실험은 MW 손실이 대조 손실에 비해 실증적으로 우수한 대안이며, RAG와 같은 고위험 애플리케이션을 위해 더 잘 보정되고 더 구별력 있는 검색기를 제공한다는 것을 보여준다.
English
Dual-encoder retrievers depend on the principle that relevant documents
should score higher than irrelevant ones for a given query. Yet the dominant
Noise Contrastive Estimation (NCE) objective, which underpins Contrastive Loss,
optimizes a softened ranking surrogate that we rigorously prove is
fundamentally oblivious to score separation quality and unrelated to AUC. This
mismatch leads to poor calibration and suboptimal performance in downstream
tasks like retrieval-augmented generation (RAG). To address this fundamental
limitation, we introduce the MW loss, a new training objective that maximizes
the Mann-Whitney U statistic, which is mathematically equivalent to the Area
under the ROC Curve (AUC). MW loss encourages each positive-negative pair to be
correctly ranked by minimizing binary cross entropy over score differences. We
provide theoretical guarantees that MW loss directly upper-bounds the AoC,
better aligning optimization with retrieval goals. We further promote ROC
curves and AUC as natural threshold free diagnostics for evaluating retriever
calibration and ranking quality. Empirically, retrievers trained with MW loss
consistently outperform contrastive counterparts in AUC and standard retrieval
metrics. Our experiments show that MW loss is an empirically superior
alternative to Contrastive Loss, yielding better-calibrated and more
discriminative retrievers for high-stakes applications like RAG.