성능을 저해하는 데이터 수정: 강건한 정보 검색을 위한 어려운 부정 예제 재라벨링을 위한 LLM 캐스케이딩
Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval
May 22, 2025
저자: Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin
cs.AI
초록
강력한 검색 및 리랭커 모델을 훈련시키는 것은 일반적으로 대규모 검색 데이터셋에 의존합니다. 예를 들어, BGE 컬렉션은 다양한 데이터 소스에서 수집된 160만 개의 쿼리-패시지 쌍을 포함하고 있습니다. 그러나 특정 데이터셋이 모델의 효과성에 부정적인 영향을 미칠 수 있음을 발견했습니다. BGE 컬렉션에서 15개 데이터셋 중 8개를 제거하면 훈련 세트 크기가 2.35배 감소하고 BEIR에서 nDCG@10이 1.0포인트 증가합니다. 이는 훈련 데이터 품질에 대한 보다 깊은 검토를 촉진하며, 특히 "거짓 부정(false negatives)"에 초점을 맞춥니다. 여기서 관련된 패시지가 잘못적으로 관련 없음으로 레이블링되는 경우를 말합니다. 우리는 계단식 LLM 프롬프트를 사용하여 어려운 부정 샘플을 식별하고 재레이블링하는 간단하고 비용 효율적인 접근 방식을 제안합니다. 실험 결과, 거짓 부정을 진짜 긍정(true positives)으로 재레이블링하면 E5 (base)와 Qwen2.5-7B 검색 모델이 BEIR에서 0.7-1.4 nDCG@10, 제로샷 AIR-Bench 평가에서 1.7-1.8 nDCG@10으로 개선됨을 보여줍니다. 재레이블링된 데이터로 미세 조정된 리랭커들, 예를 들어 BEIR에서의 Qwen2.5-3B도 유사한 성능 향상을 보입니다. 계단식 설계의 신뢰성은 인간 주석 결과에서도 추가로 입증되며, GPT-4o의 판단이 GPT-4o-mini보다 인간과 훨씬 더 높은 일치율을 보임을 발견했습니다.
English
Training robust retrieval and reranker models typically relies on large-scale
retrieval datasets; for example, the BGE collection contains 1.6 million
query-passage pairs sourced from various data sources. However, we find that
certain datasets can negatively impact model effectiveness -- pruning 8 out of
15 datasets from the BGE collection reduces the training set size by
2.35times and increases nDCG@10 on BEIR by 1.0 point. This motivates a
deeper examination of training data quality, with a particular focus on "false
negatives", where relevant passages are incorrectly labeled as irrelevant. We
propose a simple, cost-effective approach using cascading LLM prompts to
identify and relabel hard negatives. Experimental results show that relabeling
false negatives with true positives improves both E5 (base) and Qwen2.5-7B
retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot
AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on
the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the
cascading design is further supported by human annotation results, where we
find judgment by GPT-4o shows much higher agreement with humans than
GPT-4o-mini.Summary
AI-Generated Summary