Corriger les données qui nuisent aux performances : Utilisation en cascade de LLM pour re-étiqueter les négatifs difficiles afin d'améliorer la robustesse de la recherche d'information
Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval
May 22, 2025
Auteurs: Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin
cs.AI
Résumé
L'entraînement de modèles robustes de recherche et de reranking repose généralement sur des ensembles de données de recherche à grande échelle ; par exemple, la collection BGE contient 1,6 million de paires requête-passage provenant de diverses sources de données. Cependant, nous constatons que certains ensembles de données peuvent nuire à l'efficacité des modèles — l'élagage de 8 des 15 ensembles de données de la collection BGE réduit la taille de l'ensemble d'entraînement de 2,35 fois et augmente le nDCG@10 sur BEIR de 1,0 point. Cela motive un examen approfondi de la qualité des données d'entraînement, en mettant particulièrement l'accent sur les "faux négatifs", où des passages pertinents sont incorrectement étiquetés comme non pertinents. Nous proposons une approche simple et économique utilisant des prompts en cascade de LLM pour identifier et réétiqueter les négatifs difficiles. Les résultats expérimentaux montrent que le réétiquetage des faux négatifs en vrais positifs améliore à la fois les modèles de recherche E5 (base) et Qwen2.5-7B de 0,7 à 1,4 nDCG@10 sur BEIR et de 1,7 à 1,8 nDCG@10 sur l'évaluation zero-shot AIR-Bench. Des gains similaires sont observés pour les rerankers affinés sur les données réétiquetées, comme Qwen2.5-3B sur BEIR. La fiabilité de la conception en cascade est en outre soutenue par les résultats d'annotation humaine, où nous constatons que les jugements de GPT-4o montrent un accord bien plus élevé avec les humains que ceux de GPT-4o-mini.
English
Training robust retrieval and reranker models typically relies on large-scale
retrieval datasets; for example, the BGE collection contains 1.6 million
query-passage pairs sourced from various data sources. However, we find that
certain datasets can negatively impact model effectiveness -- pruning 8 out of
15 datasets from the BGE collection reduces the training set size by
2.35times and increases nDCG@10 on BEIR by 1.0 point. This motivates a
deeper examination of training data quality, with a particular focus on "false
negatives", where relevant passages are incorrectly labeled as irrelevant. We
propose a simple, cost-effective approach using cascading LLM prompts to
identify and relabel hard negatives. Experimental results show that relabeling
false negatives with true positives improves both E5 (base) and Qwen2.5-7B
retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot
AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on
the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the
cascading design is further supported by human annotation results, where we
find judgment by GPT-4o shows much higher agreement with humans than
GPT-4o-mini.Summary
AI-Generated Summary