ChatPaper.aiChatPaper

Corrigindo Dados que Prejudicam o Desempenho: Cascateamento de LLMs para Reclassificar Negativos Difíceis para uma Recuperação de Informação Robusta

Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval

May 22, 2025
Autores: Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin
cs.AI

Resumo

O treinamento de modelos robustos de recuperação e reranking geralmente depende de grandes conjuntos de dados de recuperação; por exemplo, a coleção BGE contém 1,6 milhão de pares consulta-passagem provenientes de diversas fontes de dados. No entanto, descobrimos que certos conjuntos de dados podem impactar negativamente a eficácia do modelo — a remoção de 8 dos 15 conjuntos de dados da coleção BGE reduz o tamanho do conjunto de treinamento em 2,35 vezes e aumenta o nDCG@10 no BEIR em 1,0 ponto. Isso motiva um exame mais aprofundado da qualidade dos dados de treinamento, com foco especial nos "falsos negativos", onde passagens relevantes são incorretamente rotuladas como irrelevantes. Propomos uma abordagem simples e econômica usando prompts em cascata de LLMs para identificar e reclassificar negativos difíceis. Resultados experimentais mostram que a reclassificação de falsos negativos como verdadeiros positivos melhora tanto os modelos de recuperação E5 (base) quanto Qwen2.5-7B em 0,7-1,4 nDCG@10 no BEIR e em 1,7-1,8 nDCG@10 na avaliação zero-shot do AIR-Bench. Ganhos semelhantes são observados para modelos de reranking ajustados com os dados reclassificados, como o Qwen2.5-3B no BEIR. A confiabilidade do design em cascata é ainda mais apoiada por resultados de anotação humana, onde verificamos que o julgamento do GPT-4o apresenta uma concordância muito maior com humanos do que o GPT-4o-mini.
English
Training robust retrieval and reranker models typically relies on large-scale retrieval datasets; for example, the BGE collection contains 1.6 million query-passage pairs sourced from various data sources. However, we find that certain datasets can negatively impact model effectiveness -- pruning 8 out of 15 datasets from the BGE collection reduces the training set size by 2.35times and increases nDCG@10 on BEIR by 1.0 point. This motivates a deeper examination of training data quality, with a particular focus on "false negatives", where relevant passages are incorrectly labeled as irrelevant. We propose a simple, cost-effective approach using cascading LLM prompts to identify and relabel hard negatives. Experimental results show that relabeling false negatives with true positives improves both E5 (base) and Qwen2.5-7B retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the cascading design is further supported by human annotation results, where we find judgment by GPT-4o shows much higher agreement with humans than GPT-4o-mini.
PDF243May 23, 2025