Rank-without-GPT: Costruzione di Reranker Listwise Indipendenti da GPT su Modelli Linguistici di Grandi Dimensioni Open-Source
Rank-without-GPT: Building GPT-Independent Listwise Rerankers on Open-Source Large Language Models
December 5, 2023
Autori: Xinyu Zhang, Sebastian Hofstätter, Patrick Lewis, Raphael Tang, Jimmy Lin
cs.AI
Abstract
I riordinatori listwise basati su modelli linguistici di grandi dimensioni (LLM) rappresentano lo stato dell'arte in modalità zero-shot. Tuttavia, i lavori attuali in questa direzione dipendono tutti dai modelli GPT, rendendoli un punto di fallimento unico nella riproducibilità scientifica. Inoltre, sollevano il dubbio che i risultati della ricerca attuale siano validi solo per i modelli GPT e non per gli LLM in generale. In questo lavoro, rimuoviamo questa precondizione e costruiamo per la prima volta riordinatori listwise efficaci senza alcuna forma di dipendenza da GPT. I nostri esperimenti di recupero di passaggi dimostrano che il nostro miglior riordinatore listwise supera quelli basati su GPT-3.5 del 13% e raggiunge il 97% dell'efficacia di quelli costruiti su GPT-4. I nostri risultati mostrano anche che i dataset di addestramento esistenti, costruiti espressamente per il ranking pointwise, sono insufficienti per costruire tali riordinatori listwise. Invece, sono necessari e cruciali dati di ranking listwise di alta qualità, richiedendo ulteriori lavori per la costruzione di risorse dati listwise annotate manualmente.
English
Listwise rerankers based on large language models (LLM) are the zero-shot
state-of-the-art. However, current works in this direction all depend on the
GPT models, making it a single point of failure in scientific reproducibility.
Moreover, it raises the concern that the current research findings only hold
for GPT models but not LLM in general. In this work, we lift this pre-condition
and build for the first time effective listwise rerankers without any form of
dependency on GPT. Our passage retrieval experiments show that our best list se
reranker surpasses the listwise rerankers based on GPT-3.5 by 13% and achieves
97% effectiveness of the ones built on GPT-4. Our results also show that the
existing training datasets, which were expressly constructed for pointwise
ranking, are insufficient for building such listwise rerankers. Instead,
high-quality listwise ranking data is required and crucial, calling for further
work on building human-annotated listwise data resources.