ChatPaper.aiChatPaper

Correzione dei Dati che Compromettono le Prestazioni: Cascata di LLM per Rietichettare i Negativi Difficili per un Recupero delle Informazioni Robusto

Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval

May 22, 2025
Autori: Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin
cs.AI

Abstract

L'addestramento di modelli robusti per il recupero e il riordinamento si basa tipicamente su dataset di recupero su larga scala; ad esempio, la collezione BGE contiene 1,6 milioni di coppie query-passaggio provenienti da varie fonti di dati. Tuttavia, abbiamo osservato che alcuni dataset possono influire negativamente sull'efficacia del modello: rimuovendo 8 dei 15 dataset dalla collezione BGE, la dimensione del set di addestramento si riduce di 2,35 volte e l'nDCG@10 su BEIR aumenta di 1,0 punto. Ciò motiva un esame più approfondito della qualità dei dati di addestramento, con un particolare focus sui "falsi negativi", dove passaggi rilevanti sono erroneamente etichettati come irrilevanti. Proponiamo un approccio semplice ed economico che utilizza prompt a cascata di LLM per identificare e rietichettare i negativi difficili. I risultati sperimentali mostrano che rietichettare i falsi negativi con veri positivi migliora sia i modelli di recupero E5 (base) che Qwen2.5-7B di 0,7-1,4 nDCG@10 su BEIR e di 1,7-1,8 nDCG@10 nella valutazione zero-shot di AIR-Bench. Si osservano guadagni simili per i riordinatori fine-tuned sui dati rietichettati, come Qwen2.5-3B su BEIR. L'affidabilità del design a cascata è ulteriormente supportata dai risultati delle annotazioni umane, dove si riscontra che il giudizio di GPT-4o mostra un accordo molto più elevato con gli umani rispetto a GPT-4o-mini.
English
Training robust retrieval and reranker models typically relies on large-scale retrieval datasets; for example, the BGE collection contains 1.6 million query-passage pairs sourced from various data sources. However, we find that certain datasets can negatively impact model effectiveness -- pruning 8 out of 15 datasets from the BGE collection reduces the training set size by 2.35times and increases nDCG@10 on BEIR by 1.0 point. This motivates a deeper examination of training data quality, with a particular focus on "false negatives", where relevant passages are incorrectly labeled as irrelevant. We propose a simple, cost-effective approach using cascading LLM prompts to identify and relabel hard negatives. Experimental results show that relabeling false negatives with true positives improves both E5 (base) and Qwen2.5-7B retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the cascading design is further supported by human annotation results, where we find judgment by GPT-4o shows much higher agreement with humans than GPT-4o-mini.
PDF233May 23, 2025