ChatPaper.aiChatPaper

Corregir datos que afectan el rendimiento: Cascada de LLMs para reetiquetar negativos difíciles para una recuperación de información robusta

Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval

May 22, 2025
Autores: Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin
cs.AI

Resumen

El entrenamiento de modelos robustos de recuperación y reordenamiento generalmente depende de conjuntos de datos de recuperación a gran escala; por ejemplo, la colección BGE contiene 1.6 millones de pares consulta-párrafo obtenidos de diversas fuentes de datos. Sin embargo, descubrimos que ciertos conjuntos de datos pueden afectar negativamente la efectividad del modelo: eliminar 8 de los 15 conjuntos de datos de la colección BGE reduce el tamaño del conjunto de entrenamiento en 2.35 veces y aumenta el nDCG@10 en BEIR en 1.0 punto. Esto motiva un examen más profundo de la calidad de los datos de entrenamiento, con un enfoque particular en los "falsos negativos", donde pasajes relevantes se etiquetan incorrectamente como irrelevantes. Proponemos un enfoque simple y rentable utilizando cascadas de prompts de LLM para identificar y reetiquetar negativos difíciles. Los resultados experimentales muestran que reetiquetar falsos negativos con verdaderos positivos mejora tanto los modelos de recuperación E5 (base) como Qwen2.5-7B en 0.7-1.4 nDCG@10 en BEIR y en 1.7-1.8 nDCG@10 en la evaluación zero-shot de AIR-Bench. Se observan ganancias similares para los reordenadores ajustados con los datos reetiquetados, como Qwen2.5-3B en BEIR. La confiabilidad del diseño en cascada se ve respaldada adicionalmente por los resultados de anotación humana, donde encontramos que los juicios de GPT-4o muestran un acuerdo mucho mayor con los humanos que GPT-4o-mini.
English
Training robust retrieval and reranker models typically relies on large-scale retrieval datasets; for example, the BGE collection contains 1.6 million query-passage pairs sourced from various data sources. However, we find that certain datasets can negatively impact model effectiveness -- pruning 8 out of 15 datasets from the BGE collection reduces the training set size by 2.35times and increases nDCG@10 on BEIR by 1.0 point. This motivates a deeper examination of training data quality, with a particular focus on "false negatives", where relevant passages are incorrectly labeled as irrelevant. We propose a simple, cost-effective approach using cascading LLM prompts to identify and relabel hard negatives. Experimental results show that relabeling false negatives with true positives improves both E5 (base) and Qwen2.5-7B retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the cascading design is further supported by human annotation results, where we find judgment by GPT-4o shows much higher agreement with humans than GPT-4o-mini.
PDF233May 23, 2025