Valutare i valutatori: una raccolta di giudizi di rilevanza generati da LLM
Judging the Judges: A Collection of LLM-Generated Relevance Judgements
February 19, 2025
Autori: Hossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz
cs.AI
Abstract
L'utilizzo di Large Language Models (LLM) per le valutazioni di rilevanza offre opportunità promettenti per migliorare l'Information Retrieval (IR), il Natural Language Processing (NLP) e campi correlati. In effetti, i LLM promettono di consentire ai sperimentatori di IR di costruire collezioni di valutazione con una frazione del lavoro manuale umano attualmente richiesto. Ciò potrebbe essere utile per argomenti emergenti su cui c'è ancora una conoscenza limitata e potrebbe mitigare le sfide legate alla valutazione dei sistemi di ranking in scenari a bassa risorsa, dove è difficile trovare annotatori umani. Considerando i rapidi sviluppi recenti in questo dominio, molte domande relative ai LLM come valutatori devono ancora essere risolte. Tra gli aspetti che richiedono ulteriori indagini, possiamo elencare l'impatto di vari componenti in una pipeline di generazione di giudizi di rilevanza, come il prompt utilizzato o il LLM scelto.
Questo articolo presenta e analizza i risultati di una valutazione su larga scala di giudizi di rilevanza automatici, la sfida LLMJudge a SIGIR 2024, dove sono stati proposti diversi approcci di valutazione della rilevanza. Nel dettaglio, rilasciamo e analizziamo 42 etichette generate da LLM per i giudizi di rilevanza del TREC 2023 Deep Learning track, prodotti da otto team internazionali che hanno partecipato alla sfida. Data la loro natura diversificata, questi giudizi di rilevanza generati automaticamente possono aiutare la comunità non solo a indagare sui bias sistematici causati dai LLM, ma anche a esplorare l'efficacia dei modelli ensemble, analizzare i compromessi tra diversi modelli e valutatori umani e avanzare metodologie per migliorare le tecniche di valutazione automatizzata. La risorsa rilasciata è disponibile al seguente link:
https://llm4eval.github.io/LLMJudge-benchmark/
English
Using Large Language Models (LLMs) for relevance assessments offers promising
opportunities to improve Information Retrieval (IR), Natural Language
Processing (NLP), and related fields. Indeed, LLMs hold the promise of allowing
IR experimenters to build evaluation collections with a fraction of the manual
human labor currently required. This could help with fresh topics on which
there is still limited knowledge and could mitigate the challenges of
evaluating ranking systems in low-resource scenarios, where it is challenging
to find human annotators. Given the fast-paced recent developments in the
domain, many questions concerning LLMs as assessors are yet to be answered.
Among the aspects that require further investigation, we can list the impact of
various components in a relevance judgment generation pipeline, such as the
prompt used or the LLM chosen.
This paper benchmarks and reports on the results of a large-scale automatic
relevance judgment evaluation, the LLMJudge challenge at SIGIR 2024, where
different relevance assessment approaches were proposed. In detail, we release
and benchmark 42 LLM-generated labels of the TREC 2023 Deep Learning track
relevance judgments produced by eight international teams who participated in
the challenge. Given their diverse nature, these automatically generated
relevance judgments can help the community not only investigate systematic
biases caused by LLMs but also explore the effectiveness of ensemble models,
analyze the trade-offs between different models and human assessors, and
advance methodologies for improving automated evaluation techniques. The
released resource is available at the following link:
https://llm4eval.github.io/LLMJudge-benchmark/Summary
AI-Generated Summary