ChatPaper.aiChatPaper

Rank-without-GPT: Het bouwen van GPT-onafhankelijke lijstgewijze herrangschikkers op open-source grote taalmodellen

Rank-without-GPT: Building GPT-Independent Listwise Rerankers on Open-Source Large Language Models

December 5, 2023
Auteurs: Xinyu Zhang, Sebastian Hofstätter, Patrick Lewis, Raphael Tang, Jimmy Lin
cs.AI

Samenvatting

Listwise rerankers gebaseerd op grote taalmodellen (LLM) vormen de state-of-the-art in zero-shot benaderingen. Echter, huidige werken in deze richting zijn allemaal afhankelijk van de GPT-modellen, wat een enkelvoudig faalpunt vormt voor wetenschappelijke reproduceerbaarheid. Bovendien roept dit de zorg op dat de huidige onderzoeksbevindingen alleen gelden voor GPT-modellen en niet voor LLM in het algemeen. In dit werk heffen we deze voorwaarde op en bouwen we voor het eerst effectieve listwise rerankers zonder enige vorm van afhankelijkheid van GPT. Onze experimenten met passageretrieval tonen aan dat onze beste listwise reranker de listwise rerankers gebaseerd op GPT-3.5 met 13% overtreft en 97% effectiviteit bereikt van die gebouwd op GPT-4. Onze resultaten laten ook zien dat de bestaande trainingsdatasets, die specifiek zijn geconstrueerd voor pointwise ranking, onvoldoende zijn voor het bouwen van dergelijke listwise rerankers. In plaats daarvan is hoogwaardige listwise ranking data vereist en cruciaal, wat oproept tot verder werk aan het opbouwen van door mensen geannoteerde listwise databronnen.
English
Listwise rerankers based on large language models (LLM) are the zero-shot state-of-the-art. However, current works in this direction all depend on the GPT models, making it a single point of failure in scientific reproducibility. Moreover, it raises the concern that the current research findings only hold for GPT models but not LLM in general. In this work, we lift this pre-condition and build for the first time effective listwise rerankers without any form of dependency on GPT. Our passage retrieval experiments show that our best list se reranker surpasses the listwise rerankers based on GPT-3.5 by 13% and achieves 97% effectiveness of the ones built on GPT-4. Our results also show that the existing training datasets, which were expressly constructed for pointwise ranking, are insufficient for building such listwise rerankers. Instead, high-quality listwise ranking data is required and crucial, calling for further work on building human-annotated listwise data resources.
PDF140February 7, 2026