ChatPaper.aiChatPaper

Corriger les données qui nuisent aux performances : Utilisation en cascade de LLM pour re-étiqueter les négatifs difficiles afin d'améliorer la robustesse de la recherche d'information

Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval

May 22, 2025
Auteurs: Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin
cs.AI

Résumé

L'entraînement de modèles robustes de recherche et de reranking repose généralement sur des ensembles de données de recherche à grande échelle ; par exemple, la collection BGE contient 1,6 million de paires requête-passage provenant de diverses sources de données. Cependant, nous constatons que certains ensembles de données peuvent nuire à l'efficacité des modèles — l'élagage de 8 des 15 ensembles de données de la collection BGE réduit la taille de l'ensemble d'entraînement de 2,35 fois et augmente le nDCG@10 sur BEIR de 1,0 point. Cela motive un examen approfondi de la qualité des données d'entraînement, en mettant particulièrement l'accent sur les "faux négatifs", où des passages pertinents sont incorrectement étiquetés comme non pertinents. Nous proposons une approche simple et économique utilisant des prompts en cascade de LLM pour identifier et réétiqueter les négatifs difficiles. Les résultats expérimentaux montrent que le réétiquetage des faux négatifs en vrais positifs améliore à la fois les modèles de recherche E5 (base) et Qwen2.5-7B de 0,7 à 1,4 nDCG@10 sur BEIR et de 1,7 à 1,8 nDCG@10 sur l'évaluation zero-shot AIR-Bench. Des gains similaires sont observés pour les rerankers affinés sur les données réétiquetées, comme Qwen2.5-3B sur BEIR. La fiabilité de la conception en cascade est en outre soutenue par les résultats d'annotation humaine, où nous constatons que les jugements de GPT-4o montrent un accord bien plus élevé avec les humains que ceux de GPT-4o-mini.
English
Training robust retrieval and reranker models typically relies on large-scale retrieval datasets; for example, the BGE collection contains 1.6 million query-passage pairs sourced from various data sources. However, we find that certain datasets can negatively impact model effectiveness -- pruning 8 out of 15 datasets from the BGE collection reduces the training set size by 2.35times and increases nDCG@10 on BEIR by 1.0 point. This motivates a deeper examination of training data quality, with a particular focus on "false negatives", where relevant passages are incorrectly labeled as irrelevant. We propose a simple, cost-effective approach using cascading LLM prompts to identify and relabel hard negatives. Experimental results show that relabeling false negatives with true positives improves both E5 (base) and Qwen2.5-7B retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the cascading design is further supported by human annotation results, where we find judgment by GPT-4o shows much higher agreement with humans than GPT-4o-mini.

Summary

AI-Generated Summary

PDF123May 23, 2025