Évaluer les évaluateurs : Une collection de jugements de pertinence générés par des modèles de langage
Judging the Judges: A Collection of LLM-Generated Relevance Judgements
February 19, 2025
Auteurs: Hossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz
cs.AI
Résumé
L'utilisation de modèles de langage de grande taille (LLMs) pour les évaluations de pertinence offre des opportunités prometteuses pour améliorer la recherche d'information (IR), le traitement du langage naturel (NLP) et les domaines connexes. En effet, les LLMs permettent aux expérimentateurs en IR de constituer des collections d'évaluation avec une fraction du travail manuel humain actuellement requis. Cela pourrait s'avérer utile pour des sujets émergents où les connaissances sont encore limitées et pourrait atténuer les défis liés à l'évaluation des systèmes de classement dans des scénarios à faibles ressources, où il est difficile de trouver des annotateurs humains. Compte tenu des récents développements rapides dans ce domaine, de nombreuses questions concernant les LLMs en tant qu'évaluateurs restent sans réponse. Parmi les aspects nécessitant des investigations supplémentaires, on peut citer l'impact de divers composants dans un pipeline de génération de jugements de pertinence, tels que l'invite utilisée ou le LLM choisi.
Cet article présente et analyse les résultats d'une évaluation à grande échelle de jugements de pertinence automatiques, le défi LLMJudge à SIGIR 2024, où différentes approches d'évaluation de pertinence ont été proposées. En détail, nous publions et évaluons 42 labels générés par des LLMs pour les jugements de pertinence de la piste Deep Learning de TREC 2023, produits par huit équipes internationales ayant participé au défi. Étant donné leur nature diverse, ces jugements de pertinence générés automatiquement peuvent aider la communauté non seulement à étudier les biais systématiques causés par les LLMs, mais aussi à explorer l'efficacité des modèles d'ensemble, à analyser les compromis entre différents modèles et évaluateurs humains, et à faire progresser les méthodologies pour améliorer les techniques d'évaluation automatisées. La ressource publiée est disponible à l'adresse suivante : https://llm4eval.github.io/LLMJudge-benchmark/
English
Using Large Language Models (LLMs) for relevance assessments offers promising
opportunities to improve Information Retrieval (IR), Natural Language
Processing (NLP), and related fields. Indeed, LLMs hold the promise of allowing
IR experimenters to build evaluation collections with a fraction of the manual
human labor currently required. This could help with fresh topics on which
there is still limited knowledge and could mitigate the challenges of
evaluating ranking systems in low-resource scenarios, where it is challenging
to find human annotators. Given the fast-paced recent developments in the
domain, many questions concerning LLMs as assessors are yet to be answered.
Among the aspects that require further investigation, we can list the impact of
various components in a relevance judgment generation pipeline, such as the
prompt used or the LLM chosen.
This paper benchmarks and reports on the results of a large-scale automatic
relevance judgment evaluation, the LLMJudge challenge at SIGIR 2024, where
different relevance assessment approaches were proposed. In detail, we release
and benchmark 42 LLM-generated labels of the TREC 2023 Deep Learning track
relevance judgments produced by eight international teams who participated in
the challenge. Given their diverse nature, these automatically generated
relevance judgments can help the community not only investigate systematic
biases caused by LLMs but also explore the effectiveness of ensemble models,
analyze the trade-offs between different models and human assessors, and
advance methodologies for improving automated evaluation techniques. The
released resource is available at the following link:
https://llm4eval.github.io/LLMJudge-benchmark/Summary
AI-Generated Summary