Rang 1: Testtijd berekenen voor opnieuw rangschikken in Informatie ophalen
Rank1: Test-Time Compute for Reranking in Information Retrieval
February 25, 2025
Auteurs: Orion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme
cs.AI
Samenvatting
We introduceren Rank1, het eerste hersorteermodel dat is getraind om gebruik te maken van rekenkracht op testtijd. Rank1 toont de toepasbaarheid binnen informatieopvraging van het gebruik van een redenerend taalmodel (bijv. OpenAI's o1, Deepseek's R1, enz.) voor distillatie om de prestaties van een kleiner model snel te verbeteren. We verzamelen en stellen een dataset van meer dan 600.000 voorbeelden van R1-redeneersporen uit vragen en passages in MS MARCO beschikbaar. Modellen die zijn getraind op deze dataset tonen: (1) state-of-the-art prestaties op geavanceerde redeneer- en instructievolgdatasets; (2) werken opmerkelijk goed buiten distributie vanwege het vermogen om te reageren op gebruikersinvoer; en (3) hebben verklaarbare redeneerketens die aan gebruikers of op RAG gebaseerde systemen kunnen worden gegeven. Verder tonen we aan dat gekwantiseerde versies van deze modellen sterke prestaties behouden terwijl er minder rekenkracht/geheugen wordt gebruikt. Over het algemeen toont Rank1 aan dat rekenkracht op testtijd zorgt voor een fundamenteel nieuw type verklaarbaar en presterend hersorteermodel voor zoekopdrachten.
English
We introduce Rank1, the first reranking model trained to take advantage of
test-time compute. Rank1 demonstrates the applicability within retrieval of
using a reasoning language model (i.e. OpenAI's o1, Deepseek's R1, etc.) for
distillation in order to rapidly improve the performance of a smaller model. We
gather and open-source a dataset of more than 600,000 examples of R1 reasoning
traces from queries and passages in MS MARCO. Models trained on this dataset
show: (1) state-of-the-art performance on advanced reasoning and instruction
following datasets; (2) work remarkably well out of distribution due to the
ability to respond to user-input prompts; and (3) have explainable reasoning
chains that can be given to users or RAG-based systems. Further, we demonstrate
that quantized versions of these models retain strong performance while using
less compute/memory. Overall, Rank1 shows that test-time compute allows for a
fundamentally new type of explainable and performant reranker model for search.