ChatPaper.aiChatPaper

De Jury Beoordelen: Een Verzameling van Door LLM-Gegenereerde Relevantiebeoordelingen

Judging the Judges: A Collection of LLM-Generated Relevance Judgements

February 19, 2025
Auteurs: Hossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz
cs.AI

Samenvatting

Het gebruik van Large Language Models (LLM's) voor relevantiebeoordelingen biedt veelbelovende mogelijkheden om Informatie Retrieval (IR), Natural Language Processing (NLP) en aanverwante velden te verbeteren. Inderdaad, LLM's beloven IR-onderzoekers in staat te stellen evaluatiecollecties op te bouwen met slechts een fractie van het handmatige menselijke werk dat momenteel vereist is. Dit kan helpen bij nieuwe onderwerpen waarover nog beperkte kennis beschikbaar is en kan de uitdagingen van het evalueren van rankingsystemen in situaties met beperkte middelen verzachten, waar het moeilijk is om menselijke annotators te vinden. Gezien de snelle recente ontwikkelingen in dit domein, zijn er nog veel vragen over LLM's als beoordelaars die beantwoord moeten worden. Onder de aspecten die verder onderzoek vereisen, kunnen we de impact van verschillende componenten in een pijplijn voor het genereren van relevantiebeoordelingen noemen, zoals de gebruikte prompt of de gekozen LLM. Dit artikel evalueert en rapporteert over de resultaten van een grootschalige automatische relevantiebeoordeling, de LLMJudge-uitdaging op SIGIR 2024, waar verschillende benaderingen voor relevantiebeoordeling werden voorgesteld. In detail publiceren en evalueren we 42 door LLM's gegenereerde labels van de relevantiebeoordelingen van de TREC 2023 Deep Learning-track, geproduceerd door acht internationale teams die deelnamen aan de uitdaging. Vanwege hun diverse aard kunnen deze automatisch gegenereerde relevantiebeoordelingen de gemeenschap niet alleen helpen systematische vooroordelen veroorzaakt door LLM's te onderzoeken, maar ook de effectiviteit van ensemblemodellen verkennen, de afwegingen tussen verschillende modellen en menselijke beoordelaars analyseren, en methodologieën voor het verbeteren van geautomatiseerde evaluatietechnieken bevorderen. De vrijgegeven bron is beschikbaar op de volgende link: https://llm4eval.github.io/LLMJudge-benchmark/
English
Using Large Language Models (LLMs) for relevance assessments offers promising opportunities to improve Information Retrieval (IR), Natural Language Processing (NLP), and related fields. Indeed, LLMs hold the promise of allowing IR experimenters to build evaluation collections with a fraction of the manual human labor currently required. This could help with fresh topics on which there is still limited knowledge and could mitigate the challenges of evaluating ranking systems in low-resource scenarios, where it is challenging to find human annotators. Given the fast-paced recent developments in the domain, many questions concerning LLMs as assessors are yet to be answered. Among the aspects that require further investigation, we can list the impact of various components in a relevance judgment generation pipeline, such as the prompt used or the LLM chosen. This paper benchmarks and reports on the results of a large-scale automatic relevance judgment evaluation, the LLMJudge challenge at SIGIR 2024, where different relevance assessment approaches were proposed. In detail, we release and benchmark 42 LLM-generated labels of the TREC 2023 Deep Learning track relevance judgments produced by eight international teams who participated in the challenge. Given their diverse nature, these automatically generated relevance judgments can help the community not only investigate systematic biases caused by LLMs but also explore the effectiveness of ensemble models, analyze the trade-offs between different models and human assessors, and advance methodologies for improving automated evaluation techniques. The released resource is available at the following link: https://llm4eval.github.io/LLMJudge-benchmark/

Summary

AI-Generated Summary

PDF42February 20, 2025