Afogado em Documentos: Consequências da Escala na Inferência do Reordenador
Drowning in Documents: Consequences of Scaling Reranker Inference
November 18, 2024
Autores: Mathew Jacob, Erik Lindgren, Matei Zaharia, Michael Carbin, Omar Khattab, Andrew Drozdov
cs.AI
Resumo
Os reclassificadores, geralmente os codificadores cruzados, são frequentemente usados para reavaliar os documentos recuperados por sistemas de RI inicial mais baratos. Isso ocorre porque, embora caros, presume-se que os reclassificadores sejam mais eficazes. Desafiamos essa suposição ao medir o desempenho do reclassificador para a recuperação completa, não apenas para reavaliar a recuperação da primeira etapa. Nossos experimentos revelam uma tendência surpreendente: os melhores reclassificadores existentes fornecem retornos decrescentes ao pontuar progressivamente mais documentos e, na verdade, degradam a qualidade além de um certo limite. Na verdade, nesse cenário, os reclassificadores frequentemente podem atribuir pontuações altas a documentos sem sobreposição lexical ou semântica com a consulta. Esperamos que nossas descobertas estimulem pesquisas futuras para melhorar o reclassificação.
English
Rerankers, typically cross-encoders, are often used to re-score the documents
retrieved by cheaper initial IR systems. This is because, though expensive,
rerankers are assumed to be more effective. We challenge this assumption by
measuring reranker performance for full retrieval, not just re-scoring
first-stage retrieval. Our experiments reveal a surprising trend: the best
existing rerankers provide diminishing returns when scoring progressively more
documents and actually degrade quality beyond a certain limit. In fact, in this
setting, rerankers can frequently assign high scores to documents with no
lexical or semantic overlap with the query. We hope that our findings will spur
future research to improve reranking.Summary
AI-Generated Summary