Corregir datos que afectan el rendimiento: Cascada de LLMs para reetiquetar negativos difíciles para una recuperación de información robusta
Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval
May 22, 2025
Autores: Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin
cs.AI
Resumen
El entrenamiento de modelos robustos de recuperación y reordenamiento generalmente depende de conjuntos de datos de recuperación a gran escala; por ejemplo, la colección BGE contiene 1.6 millones de pares consulta-párrafo obtenidos de diversas fuentes de datos. Sin embargo, descubrimos que ciertos conjuntos de datos pueden afectar negativamente la efectividad del modelo: eliminar 8 de los 15 conjuntos de datos de la colección BGE reduce el tamaño del conjunto de entrenamiento en 2.35 veces y aumenta el nDCG@10 en BEIR en 1.0 punto. Esto motiva un examen más profundo de la calidad de los datos de entrenamiento, con un enfoque particular en los "falsos negativos", donde pasajes relevantes se etiquetan incorrectamente como irrelevantes. Proponemos un enfoque simple y rentable utilizando cascadas de prompts de LLM para identificar y reetiquetar negativos difíciles. Los resultados experimentales muestran que reetiquetar falsos negativos con verdaderos positivos mejora tanto los modelos de recuperación E5 (base) como Qwen2.5-7B en 0.7-1.4 nDCG@10 en BEIR y en 1.7-1.8 nDCG@10 en la evaluación zero-shot de AIR-Bench. Se observan ganancias similares para los reordenadores ajustados con los datos reetiquetados, como Qwen2.5-3B en BEIR. La confiabilidad del diseño en cascada se ve respaldada adicionalmente por los resultados de anotación humana, donde encontramos que los juicios de GPT-4o muestran un acuerdo mucho mayor con los humanos que GPT-4o-mini.
English
Training robust retrieval and reranker models typically relies on large-scale
retrieval datasets; for example, the BGE collection contains 1.6 million
query-passage pairs sourced from various data sources. However, we find that
certain datasets can negatively impact model effectiveness -- pruning 8 out of
15 datasets from the BGE collection reduces the training set size by
2.35times and increases nDCG@10 on BEIR by 1.0 point. This motivates a
deeper examination of training data quality, with a particular focus on "false
negatives", where relevant passages are incorrectly labeled as irrelevant. We
propose a simple, cost-effective approach using cascading LLM prompts to
identify and relabel hard negatives. Experimental results show that relabeling
false negatives with true positives improves both E5 (base) and Qwen2.5-7B
retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot
AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on
the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the
cascading design is further supported by human annotation results, where we
find judgment by GPT-4o shows much higher agreement with humans than
GPT-4o-mini.