De Jury Beoordelen: Een Verzameling van Door LLM-Gegenereerde Relevantiebeoordelingen
Judging the Judges: A Collection of LLM-Generated Relevance Judgements
February 19, 2025
Auteurs: Hossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz
cs.AI
Samenvatting
Het gebruik van Large Language Models (LLM's) voor relevantiebeoordelingen biedt veelbelovende mogelijkheden om Informatie Retrieval (IR), Natural Language Processing (NLP) en aanverwante velden te verbeteren. Inderdaad, LLM's beloven IR-onderzoekers in staat te stellen evaluatiecollecties op te bouwen met slechts een fractie van het handmatige menselijke werk dat momenteel vereist is. Dit kan helpen bij nieuwe onderwerpen waarover nog beperkte kennis beschikbaar is en kan de uitdagingen van het evalueren van rankingsystemen in situaties met beperkte middelen verzachten, waar het moeilijk is om menselijke annotators te vinden. Gezien de snelle recente ontwikkelingen in dit domein, zijn er nog veel vragen over LLM's als beoordelaars die beantwoord moeten worden. Onder de aspecten die verder onderzoek vereisen, kunnen we de impact van verschillende componenten in een pijplijn voor het genereren van relevantiebeoordelingen noemen, zoals de gebruikte prompt of de gekozen LLM.
Dit artikel evalueert en rapporteert over de resultaten van een grootschalige automatische relevantiebeoordeling, de LLMJudge-uitdaging op SIGIR 2024, waar verschillende benaderingen voor relevantiebeoordeling werden voorgesteld. In detail publiceren en evalueren we 42 door LLM's gegenereerde labels van de relevantiebeoordelingen van de TREC 2023 Deep Learning-track, geproduceerd door acht internationale teams die deelnamen aan de uitdaging. Vanwege hun diverse aard kunnen deze automatisch gegenereerde relevantiebeoordelingen de gemeenschap niet alleen helpen systematische vooroordelen veroorzaakt door LLM's te onderzoeken, maar ook de effectiviteit van ensemblemodellen verkennen, de afwegingen tussen verschillende modellen en menselijke beoordelaars analyseren, en methodologieën voor het verbeteren van geautomatiseerde evaluatietechnieken bevorderen. De vrijgegeven bron is beschikbaar op de volgende link:
https://llm4eval.github.io/LLMJudge-benchmark/
English
Using Large Language Models (LLMs) for relevance assessments offers promising
opportunities to improve Information Retrieval (IR), Natural Language
Processing (NLP), and related fields. Indeed, LLMs hold the promise of allowing
IR experimenters to build evaluation collections with a fraction of the manual
human labor currently required. This could help with fresh topics on which
there is still limited knowledge and could mitigate the challenges of
evaluating ranking systems in low-resource scenarios, where it is challenging
to find human annotators. Given the fast-paced recent developments in the
domain, many questions concerning LLMs as assessors are yet to be answered.
Among the aspects that require further investigation, we can list the impact of
various components in a relevance judgment generation pipeline, such as the
prompt used or the LLM chosen.
This paper benchmarks and reports on the results of a large-scale automatic
relevance judgment evaluation, the LLMJudge challenge at SIGIR 2024, where
different relevance assessment approaches were proposed. In detail, we release
and benchmark 42 LLM-generated labels of the TREC 2023 Deep Learning track
relevance judgments produced by eight international teams who participated in
the challenge. Given their diverse nature, these automatically generated
relevance judgments can help the community not only investigate systematic
biases caused by LLMs but also explore the effectiveness of ensemble models,
analyze the trade-offs between different models and human assessors, and
advance methodologies for improving automated evaluation techniques. The
released resource is available at the following link:
https://llm4eval.github.io/LLMJudge-benchmark/Summary
AI-Generated Summary