ChatPaper.aiChatPaper

Data corrigeren die de prestaties schaadt: Cascading LLM's om moeilijke negatieven te herlabelen voor robuuste informatie-ophaling

Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval

May 22, 2025
Auteurs: Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin
cs.AI

Samenvatting

Het trainen van robuuste retrieval- en reranker-modellen is doorgaans afhankelijk van grootschalige retrieval-datasets; bijvoorbeeld, de BGE-collectie bevat 1,6 miljoen query-passage-paren afkomstig uit verschillende databronnen. We merken echter dat bepaalde datasets de effectiviteit van modellen negatief kunnen beïnvloeden — het verwijderen van 8 van de 15 datasets uit de BGE-collectie verkleint de trainingset met 2,35 keer en verhoogt de nDCG@10 op BEIR met 1,0 punt. Dit motiveert een diepgaand onderzoek naar de kwaliteit van trainingsdata, met specifieke aandacht voor "false negatives", waarbij relevante passages ten onrechte als irrelevant zijn gelabeld. We stellen een eenvoudige, kosteneffectieve aanpak voor met behulp van cascading LLM-prompts om harde negatieven te identificeren en te herlabelen. Experimentele resultaten tonen aan dat het herlabelen van false negatives met true positives zowel de E5 (base)- als Qwen2.5-7B-retrievalmodellen verbetert met 0,7-1,4 nDCG@10 op BEIR en met 1,7-1,8 nDCG@10 op zero-shot AIR-Bench-evaluatie. Soortgelijke verbeteringen worden waargenomen voor rerankers die zijn verfijnd op de hergelabelde data, zoals Qwen2.5-3B op BEIR. De betrouwbaarheid van het cascading-ontwerp wordt verder ondersteund door menselijke annotatieresultaten, waarbij we vaststellen dat de beoordeling door GPT-4o een veel hogere overeenstemming met mensen vertoont dan GPT-4o-mini.
English
Training robust retrieval and reranker models typically relies on large-scale retrieval datasets; for example, the BGE collection contains 1.6 million query-passage pairs sourced from various data sources. However, we find that certain datasets can negatively impact model effectiveness -- pruning 8 out of 15 datasets from the BGE collection reduces the training set size by 2.35times and increases nDCG@10 on BEIR by 1.0 point. This motivates a deeper examination of training data quality, with a particular focus on "false negatives", where relevant passages are incorrectly labeled as irrelevant. We propose a simple, cost-effective approach using cascading LLM prompts to identify and relabel hard negatives. Experimental results show that relabeling false negatives with true positives improves both E5 (base) and Qwen2.5-7B retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the cascading design is further supported by human annotation results, where we find judgment by GPT-4o shows much higher agreement with humans than GPT-4o-mini.
PDF243May 23, 2025