Bewertung der Bewerter: Eine Sammlung von LLM-generierten Relevanzurteilen
Judging the Judges: A Collection of LLM-Generated Relevance Judgements
February 19, 2025
Autoren: Hossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz
cs.AI
Zusammenfassung
Die Verwendung von Large Language Models (LLMs) für Relevanzbewertungen bietet vielversprechende Möglichkeiten, die Informationsbeschaffung (Information Retrieval, IR), die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) und verwandte Bereiche zu verbessern. Tatsächlich besteht die Aussicht, dass LLMs es IR-Experimentatoren ermöglichen, Evaluierungssammlungen mit einem Bruchteil der derzeit erforderlichen manuellen menschlichen Arbeit zu erstellen. Dies könnte bei neuen Themen, zu denen noch begrenztes Wissen vorliegt, hilfreich sein und die Herausforderungen bei der Bewertung von Ranking-Systemen in ressourcenarmen Szenarien mildern, in denen es schwierig ist, menschliche Annotatoren zu finden. Angesichts der rasanten Entwicklungen in diesem Bereich sind viele Fragen bezüglich LLMs als Bewerter noch unbeantwortet. Zu den Aspekten, die weiterer Untersuchung bedürfen, gehören die Auswirkungen verschiedener Komponenten in einer Pipeline zur Generierung von Relevanzurteilen, wie z. B. der verwendete Prompt oder das gewählte LLM.
Dieses Paper präsentiert und bewertet die Ergebnisse einer groß angelegten automatischen Relevanzurteilsbewertung, der LLMJudge-Challenge bei SIGIR 2024, bei der verschiedene Ansätze zur Relevanzbewertung vorgeschlagen wurden. Im Detail veröffentlichen und bewerten wir 42 LLM-generierte Labels der Relevanzurteile des TREC 2023 Deep Learning Tracks, die von acht internationalen Teams erstellt wurden, die an der Challenge teilgenommen haben. Aufgrund ihrer vielfältigen Natur können diese automatisch generierten Relevanzurteile der Gemeinschaft nicht nur dabei helfen, systematische Verzerrungen durch LLMs zu untersuchen, sondern auch die Effektivität von Ensemble-Modellen zu erforschen, die Kompromisse zwischen verschiedenen Modellen und menschlichen Bewertern zu analysieren und Methoden zur Verbesserung automatisierter Evaluierungstechniken voranzutreiben. Die veröffentlichte Ressource ist unter folgendem Link verfügbar: https://llm4eval.github.io/LLMJudge-benchmark/
English
Using Large Language Models (LLMs) for relevance assessments offers promising
opportunities to improve Information Retrieval (IR), Natural Language
Processing (NLP), and related fields. Indeed, LLMs hold the promise of allowing
IR experimenters to build evaluation collections with a fraction of the manual
human labor currently required. This could help with fresh topics on which
there is still limited knowledge and could mitigate the challenges of
evaluating ranking systems in low-resource scenarios, where it is challenging
to find human annotators. Given the fast-paced recent developments in the
domain, many questions concerning LLMs as assessors are yet to be answered.
Among the aspects that require further investigation, we can list the impact of
various components in a relevance judgment generation pipeline, such as the
prompt used or the LLM chosen.
This paper benchmarks and reports on the results of a large-scale automatic
relevance judgment evaluation, the LLMJudge challenge at SIGIR 2024, where
different relevance assessment approaches were proposed. In detail, we release
and benchmark 42 LLM-generated labels of the TREC 2023 Deep Learning track
relevance judgments produced by eight international teams who participated in
the challenge. Given their diverse nature, these automatically generated
relevance judgments can help the community not only investigate systematic
biases caused by LLMs but also explore the effectiveness of ensemble models,
analyze the trade-offs between different models and human assessors, and
advance methodologies for improving automated evaluation techniques. The
released resource is available at the following link:
https://llm4eval.github.io/LLMJudge-benchmark/Summary
AI-Generated Summary