ChatPaper.aiChatPaper

Ahogándose en Documentos: Consecuencias de Escalar la Inferencia del Reordenador

Drowning in Documents: Consequences of Scaling Reranker Inference

November 18, 2024
Autores: Mathew Jacob, Erik Lindgren, Matei Zaharia, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI

Resumen

Los reordenadores, típicamente codificadores cruzados, suelen utilizarse para volver a puntuar los documentos recuperados por sistemas de recuperación de información inicial más económicos. Esto se debe a que, aunque son costosos, se asume que los reordenadores son más efectivos. Desafiamos esta suposición al medir el rendimiento de los reordenadores para la recuperación completa, no solo para volver a puntuar la recuperación de la primera etapa. Nuestros experimentos revelan una tendencia sorprendente: los mejores reordenadores existentes ofrecen rendimientos decrecientes al puntuar progresivamente más documentos y en realidad degradan la calidad más allá de cierto límite. De hecho, en este escenario, los reordenadores a menudo pueden asignar puntuaciones altas a documentos sin solapamiento léxico o semántico con la consulta. Esperamos que nuestros hallazgos estimulen futuras investigaciones para mejorar el reordenamiento.
English
Rerankers, typically cross-encoders, are often used to re-score the documents retrieved by cheaper initial IR systems. This is because, though expensive, rerankers are assumed to be more effective. We challenge this assumption by measuring reranker performance for full retrieval, not just re-scoring first-stage retrieval. Our experiments reveal a surprising trend: the best existing rerankers provide diminishing returns when scoring progressively more documents and actually degrade quality beyond a certain limit. In fact, in this setting, rerankers can frequently assign high scores to documents with no lexical or semantic overlap with the query. We hope that our findings will spur future research to improve reranking.

Summary

AI-Generated Summary

PDF174November 19, 2024