ChatPaper.aiChatPaper

Исправление данных, ухудшающих производительность: каскадные LLM для перемаркировки сложных негативных примеров с целью повышения устойчивости информационного поиска

Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval

May 22, 2025
Авторы: Nandan Thakur, Crystina Zhang, Xueguang Ma, Jimmy Lin
cs.AI

Аннотация

Обучение устойчивых моделей для извлечения и ранжирования обычно требует крупномасштабных наборов данных для извлечения; например, коллекция BGE содержит 1,6 миллиона пар запрос-отрывок, собранных из различных источников данных. Однако мы обнаружили, что некоторые наборы данных могут негативно влиять на эффективность модели — удаление 8 из 15 наборов данных из коллекции BGE уменьшает размер обучающего набора в 2,35 раза и увеличивает nDCG@10 на BEIR на 1,0 балл. Это мотивирует более глубокое изучение качества обучающих данных, с особым акцентом на "ложных отрицаниях", когда релевантные отрывки ошибочно помечаются как нерелевантные. Мы предлагаем простой и экономически эффективный подход, использующий каскадные запросы к LLM для идентификации и перемаркировки сложных отрицаний. Экспериментальные результаты показывают, что перемаркировка ложных отрицаний на истинные положительные улучшает как модель E5 (базовую), так и модель Qwen2.5-7B для извлечения на 0,7–1,4 nDCG@10 на BEIR и на 1,7–1,8 nDCG@10 на zero-shot оценке AIR-Bench. Аналогичные улучшения наблюдаются для моделей ранжирования, дообученных на перемаркированных данных, таких как Qwen2.5-3B на BEIR. Надежность каскадного дизайна дополнительно подтверждается результатами аннотирования людьми, где мы обнаруживаем, что суждения GPT-4o демонстрируют значительно более высокое согласие с людьми, чем GPT-4o-mini.
English
Training robust retrieval and reranker models typically relies on large-scale retrieval datasets; for example, the BGE collection contains 1.6 million query-passage pairs sourced from various data sources. However, we find that certain datasets can negatively impact model effectiveness -- pruning 8 out of 15 datasets from the BGE collection reduces the training set size by 2.35times and increases nDCG@10 on BEIR by 1.0 point. This motivates a deeper examination of training data quality, with a particular focus on "false negatives", where relevant passages are incorrectly labeled as irrelevant. We propose a simple, cost-effective approach using cascading LLM prompts to identify and relabel hard negatives. Experimental results show that relabeling false negatives with true positives improves both E5 (base) and Qwen2.5-7B retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the cascading design is further supported by human annotation results, where we find judgment by GPT-4o shows much higher agreement with humans than GPT-4o-mini.

Summary

AI-Generated Summary

PDF123May 23, 2025