Rank-without-GPT: Het bouwen van GPT-onafhankelijke lijstgewijze herrangschikkers op open-source grote taalmodellen
Rank-without-GPT: Building GPT-Independent Listwise Rerankers on Open-Source Large Language Models
December 5, 2023
Auteurs: Xinyu Zhang, Sebastian Hofstätter, Patrick Lewis, Raphael Tang, Jimmy Lin
cs.AI
Samenvatting
Listwise rerankers gebaseerd op grote taalmodellen (LLM) vormen de state-of-the-art in zero-shot benaderingen. Echter, huidige werken in deze richting zijn allemaal afhankelijk van de GPT-modellen, wat een enkelvoudig faalpunt vormt voor wetenschappelijke reproduceerbaarheid. Bovendien roept dit de zorg op dat de huidige onderzoeksbevindingen alleen gelden voor GPT-modellen en niet voor LLM in het algemeen. In dit werk heffen we deze voorwaarde op en bouwen we voor het eerst effectieve listwise rerankers zonder enige vorm van afhankelijkheid van GPT. Onze experimenten met passageretrieval tonen aan dat onze beste listwise reranker de listwise rerankers gebaseerd op GPT-3.5 met 13% overtreft en 97% effectiviteit bereikt van die gebouwd op GPT-4. Onze resultaten laten ook zien dat de bestaande trainingsdatasets, die specifiek zijn geconstrueerd voor pointwise ranking, onvoldoende zijn voor het bouwen van dergelijke listwise rerankers. In plaats daarvan is hoogwaardige listwise ranking data vereist en cruciaal, wat oproept tot verder werk aan het opbouwen van door mensen geannoteerde listwise databronnen.
English
Listwise rerankers based on large language models (LLM) are the zero-shot
state-of-the-art. However, current works in this direction all depend on the
GPT models, making it a single point of failure in scientific reproducibility.
Moreover, it raises the concern that the current research findings only hold
for GPT models but not LLM in general. In this work, we lift this pre-condition
and build for the first time effective listwise rerankers without any form of
dependency on GPT. Our passage retrieval experiments show that our best list se
reranker surpasses the listwise rerankers based on GPT-3.5 by 13% and achieves
97% effectiveness of the ones built on GPT-4. Our results also show that the
existing training datasets, which were expressly constructed for pointwise
ranking, are insufficient for building such listwise rerankers. Instead,
high-quality listwise ranking data is required and crucial, calling for further
work on building human-annotated listwise data resources.