Classificação 1: Tempo de Computação no Momento do Teste para Reordenação na Recuperação de Informações
Rank1: Test-Time Compute for Reranking in Information Retrieval
February 25, 2025
Autores: Orion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme
cs.AI
Resumo
Apresentamos o Rank1, o primeiro modelo de reclassificação treinado para aproveitar o poder computacional no momento do teste. O Rank1 demonstra a aplicabilidade, no contexto da recuperação de informações, do uso de um modelo de linguagem de raciocínio (por exemplo, o o1 da OpenAI, o R1 da Deepseek, etc.) para destilação, a fim de melhorar rapidamente o desempenho de um modelo menor. Coletamos e disponibilizamos um conjunto de dados com mais de 600.000 exemplos de traços de raciocínio R1 de consultas e passagens no MS MARCO. Os modelos treinados com base nesse conjunto de dados demonstram: (1) desempenho de ponta em conjuntos de dados avançados de raciocínio e seguimento de instruções; (2) funcionam de forma notável fora da distribuição devido à capacidade de responder a prompts de entrada do usuário; e (3) possuem cadeias de raciocínio explicáveis que podem ser fornecidas a usuários ou sistemas baseados em RAG. Além disso, demonstramos que versões quantizadas desses modelos mantêm um forte desempenho ao utilizar menos poder computacional/memória. Em suma, o Rank1 mostra que o poder computacional no momento do teste permite um novo tipo fundamental de modelo de reclassificação explicável e eficaz para busca.
English
We introduce Rank1, the first reranking model trained to take advantage of
test-time compute. Rank1 demonstrates the applicability within retrieval of
using a reasoning language model (i.e. OpenAI's o1, Deepseek's R1, etc.) for
distillation in order to rapidly improve the performance of a smaller model. We
gather and open-source a dataset of more than 600,000 examples of R1 reasoning
traces from queries and passages in MS MARCO. Models trained on this dataset
show: (1) state-of-the-art performance on advanced reasoning and instruction
following datasets; (2) work remarkably well out of distribution due to the
ability to respond to user-input prompts; and (3) have explainable reasoning
chains that can be given to users or RAG-based systems. Further, we demonstrate
that quantized versions of these models retain strong performance while using
less compute/memory. Overall, Rank1 shows that test-time compute allows for a
fundamentally new type of explainable and performant reranker model for search.Summary
AI-Generated Summary