Rank-without-GPT: Entwicklung von GPT-unabhängigen Listwise-Rerankern auf Basis von Open-Source-Großsprachmodellen
Rank-without-GPT: Building GPT-Independent Listwise Rerankers on Open-Source Large Language Models
December 5, 2023
Autoren: Xinyu Zhang, Sebastian Hofstätter, Patrick Lewis, Raphael Tang, Jimmy Lin
cs.AI
Zusammenfassung
Listwise-Reranker, die auf großen Sprachmodellen (LLM) basieren, sind der Zero-Shot-Standard der Technik. Allerdings hängen aktuelle Arbeiten in diesem Bereich ausschließlich von GPT-Modellen ab, was sie zu einem Single Point of Failure in der wissenschaftlichen Reproduzierbarkeit macht. Darüber hinaus besteht die Sorge, dass die aktuellen Forschungsergebnisse nur für GPT-Modelle gelten und nicht für LLM im Allgemeinen. In dieser Arbeit heben wir diese Voraussetzung auf und entwickeln erstmals effektive Listwise-Reranker ohne jegliche Abhängigkeit von GPT. Unsere Experimente zur Passagenretrieval zeigen, dass unser bester Listwise-Reranker die auf GPT-3.5 basierenden Listwise-Reranker um 13 % übertrifft und 97 % der Effektivität der auf GPT-4 basierenden Modelle erreicht. Unsere Ergebnisse zeigen auch, dass die bestehenden Trainingsdatensätze, die ausdrücklich für punktweises Ranking konstruiert wurden, für den Aufbau solcher Listwise-Reranker unzureichend sind. Stattdessen sind hochwertige Listwise-Ranking-Daten erforderlich und entscheidend, was weitere Arbeiten zum Aufbau von menschlich annotierten Listwise-Datenressourcen erfordert.
English
Listwise rerankers based on large language models (LLM) are the zero-shot
state-of-the-art. However, current works in this direction all depend on the
GPT models, making it a single point of failure in scientific reproducibility.
Moreover, it raises the concern that the current research findings only hold
for GPT models but not LLM in general. In this work, we lift this pre-condition
and build for the first time effective listwise rerankers without any form of
dependency on GPT. Our passage retrieval experiments show that our best list se
reranker surpasses the listwise rerankers based on GPT-3.5 by 13% and achieves
97% effectiveness of the ones built on GPT-4. Our results also show that the
existing training datasets, which were expressly constructed for pointwise
ranking, are insufficient for building such listwise rerankers. Instead,
high-quality listwise ranking data is required and crucial, calling for further
work on building human-annotated listwise data resources.