Korrektur von Daten, die die Leistung beeinträchtigen: Kaskadierte LLMs zur Neukennzeichnung schwieriger Negativbeispiele für robuste Informationsbeschaffung
Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval
May 22, 2025
Autoren: Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin
cs.AI
Zusammenfassung
Das Training robuster Retrieval- und Reranker-Modelle basiert typischerweise auf groß angelegten Retrieval-Datensätzen; beispielsweise enthält die BGE-Sammlung 1,6 Millionen Abfrage-Passage-Paare aus verschiedenen Datenquellen. Wir stellen jedoch fest, dass bestimmte Datensätze die Modellwirksamkeit negativ beeinflussen können – das Entfernen von 8 aus 15 Datensätzen aus der BGE-Sammlung verringert die Trainingsdatengröße um das 2,35-fache und erhöht den nDCG@10-Wert auf BEIR um 1,0 Punkt. Dies motiviert eine tiefergehende Untersuchung der Qualität der Trainingsdaten, mit einem besonderen Fokus auf „falsche Negative“, bei denen relevante Passagen fälschlicherweise als irrelevant gekennzeichnet sind. Wir schlagen einen einfachen, kosteneffizienten Ansatz vor, der kaskadierende LLM-Prompts verwendet, um schwierige Negative zu identifizieren und neu zu kennzeichnen. Experimentelle Ergebnisse zeigen, dass die Neukennzeichnung falscher Negative mit echten Positiven sowohl die E5 (Base)- als auch die Qwen2.5-7B-Retrieval-Modelle um 0,7–1,4 nDCG@10 auf BEIR und um 1,7–1,8 nDCG@10 bei der Zero-Shot-AIR-Bench-Evaluierung verbessert. Ähnliche Verbesserungen werden bei Rerankern beobachtet, die auf den neu gekennzeichneten Daten feinabgestimmt wurden, wie z. B. Qwen2.5-3B auf BEIR. Die Zuverlässigkeit des kaskadierenden Designs wird weiter durch menschliche Annotationsergebnisse gestützt, bei denen wir feststellen, dass die Bewertung durch GPT-4o eine deutlich höhere Übereinstimmung mit menschlichen Bewertungen zeigt als GPT-4o-mini.
English
Training robust retrieval and reranker models typically relies on large-scale
retrieval datasets; for example, the BGE collection contains 1.6 million
query-passage pairs sourced from various data sources. However, we find that
certain datasets can negatively impact model effectiveness -- pruning 8 out of
15 datasets from the BGE collection reduces the training set size by
2.35times and increases nDCG@10 on BEIR by 1.0 point. This motivates a
deeper examination of training data quality, with a particular focus on "false
negatives", where relevant passages are incorrectly labeled as irrelevant. We
propose a simple, cost-effective approach using cascading LLM prompts to
identify and relabel hard negatives. Experimental results show that relabeling
false negatives with true positives improves both E5 (base) and Qwen2.5-7B
retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot
AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on
the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the
cascading design is further supported by human annotation results, where we
find judgment by GPT-4o shows much higher agreement with humans than
GPT-4o-mini.Summary
AI-Generated Summary