ChatPaper.aiChatPaper

Тонущий в документах: последствия масштабирования вывода переранжировщика

Drowning in Documents: Consequences of Scaling Reranker Inference

November 18, 2024
Авторы: Mathew Jacob, Erik Lindgren, Matei Zaharia, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI

Аннотация

Переупорядочиватели, обычно кросс-кодировщики, часто используются для повторной оценки документов, полученных более дешевыми начальными системами информационного поиска. Это происходит потому, что, хотя переупорядочиватели являются дорогостоящими, предполагается, что они более эффективны. Мы оспариваем это предположение, измеряя производительность переупорядочивателя для полного поиска, а не только повторной оценки документов на первом этапе поиска. Наши эксперименты показывают удивительную тенденцию: лучшие существующие переупорядочиватели при оценке все большего количества документов обеспечивают убывающую отдачу и фактически ухудшают качество после достижения определенного предела. На самом деле, в такой ситуации переупорядочиватели часто могут присваивать высокие оценки документам, не имеющим лексического или семантического перекрытия с запросом. Мы надеемся, что наши результаты стимулируют будущие исследования по улучшению переупорядочивания.
English
Rerankers, typically cross-encoders, are often used to re-score the documents retrieved by cheaper initial IR systems. This is because, though expensive, rerankers are assumed to be more effective. We challenge this assumption by measuring reranker performance for full retrieval, not just re-scoring first-stage retrieval. Our experiments reveal a surprising trend: the best existing rerankers provide diminishing returns when scoring progressively more documents and actually degrade quality beyond a certain limit. In fact, in this setting, rerankers can frequently assign high scores to documents with no lexical or semantic overlap with the query. We hope that our findings will spur future research to improve reranking.

Summary

AI-Generated Summary

PDF174November 19, 2024