Rank1: Testzeit-Berechnung für das Neusortieren in der Informationsbeschaffung
Rank1: Test-Time Compute for Reranking in Information Retrieval
February 25, 2025
Autoren: Orion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme
cs.AI
Zusammenfassung
Wir stellen Rank1 vor, das erste Umordnungsmodell, das darauf trainiert wurde, die Rechenleistung zur Testzeit zu nutzen. Rank1 demonstriert die Anwendbarkeit von Reasoning-Sprachmodellen (z. B. OpenAI's o1, Deepseek's R1 usw.) für die Destillation innerhalb des Retrieval-Prozesses, um die Leistung eines kleineren Modells schnell zu verbessern. Wir haben einen Datensatz von mehr als 600.000 Beispielen von R1-Reasoning-Traces aus Abfragen und Passagen in MS MARCO gesammelt und als Open Source veröffentlicht. Modelle, die auf diesem Datensatz trainiert wurden, zeigen: (1) state-of-the-art Leistung bei fortgeschrittenen Reasoning- und Instruktionsfolge-Datensätzen; (2) funktionieren bemerkenswert gut außerhalb der Verteilung aufgrund der Fähigkeit, auf Benutzereingabeaufforderungen zu reagieren; und (3) verfügen über erklärbare Reasoning-Ketten, die Benutzern oder RAG-basierten Systemen zur Verfügung gestellt werden können. Darüber hinaus zeigen wir, dass quantisierte Versionen dieser Modelle eine starke Leistung beibehalten, während sie weniger Rechenleistung/Speicher benötigen. Insgesamt zeigt Rank1, dass die Rechenleistung zur Testzeit einen grundlegend neuen Typ eines erklärbaren und leistungsstarken Umordnungsmodells für die Suche ermöglicht.
English
We introduce Rank1, the first reranking model trained to take advantage of
test-time compute. Rank1 demonstrates the applicability within retrieval of
using a reasoning language model (i.e. OpenAI's o1, Deepseek's R1, etc.) for
distillation in order to rapidly improve the performance of a smaller model. We
gather and open-source a dataset of more than 600,000 examples of R1 reasoning
traces from queries and passages in MS MARCO. Models trained on this dataset
show: (1) state-of-the-art performance on advanced reasoning and instruction
following datasets; (2) work remarkably well out of distribution due to the
ability to respond to user-input prompts; and (3) have explainable reasoning
chains that can be given to users or RAG-based systems. Further, we demonstrate
that quantized versions of these models retain strong performance while using
less compute/memory. Overall, Rank1 shows that test-time compute allows for a
fundamentally new type of explainable and performant reranker model for search.Summary
AI-Generated Summary