Оценка оценщиков: Сборник суждений о релевантности, сгенерированных языковыми моделями
Judging the Judges: A Collection of LLM-Generated Relevance Judgements
February 19, 2025
Авторы: Hossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz
cs.AI
Аннотация
Использование больших языковых моделей (LLM) для оценки релевантности открывает многообещающие возможности для улучшения информационного поиска (IR), обработки естественного языка (NLP) и смежных областей. Действительно, LLM позволяют исследователям в области IR создавать коллекции для оценки с минимальными затратами ручного труда, что особенно полезно для новых тем, по которым пока недостаточно данных, а также для решения проблем оценки ранжирующих систем в условиях ограниченных ресурсов, где сложно найти человеческих аннотаторов. Учитывая стремительное развитие этой области, многие вопросы, связанные с использованием LLM в качестве оценщиков, остаются без ответа. Среди аспектов, требующих дальнейшего изучения, можно выделить влияние различных компонентов в процессе генерации суждений о релевантности, таких как используемый промт или выбранная LLM.
В данной статье представлены результаты масштабной автоматической оценки релевантности, проведенной в рамках конкурса LLMJudge на конференции SIGIR 2024, где были предложены различные подходы к оценке релевантности. В частности, мы публикуем и анализируем 42 метки, сгенерированные LLM для суждений о релевантности трека TREC 2023 Deep Learning, созданные восемью международными командами, участвовавшими в конкурсе. Благодаря своему разнообразию, эти автоматически сгенерированные суждения о релевантности могут помочь сообществу не только исследовать систематические ошибки, вызванные LLM, но и изучить эффективность ансамблевых моделей, проанализировать компромиссы между различными моделями и человеческими оценщиками, а также разработать методики для улучшения автоматизированных методов оценки. Опубликованный ресурс доступен по следующей ссылке:
https://llm4eval.github.io/LLMJudge-benchmark/
English
Using Large Language Models (LLMs) for relevance assessments offers promising
opportunities to improve Information Retrieval (IR), Natural Language
Processing (NLP), and related fields. Indeed, LLMs hold the promise of allowing
IR experimenters to build evaluation collections with a fraction of the manual
human labor currently required. This could help with fresh topics on which
there is still limited knowledge and could mitigate the challenges of
evaluating ranking systems in low-resource scenarios, where it is challenging
to find human annotators. Given the fast-paced recent developments in the
domain, many questions concerning LLMs as assessors are yet to be answered.
Among the aspects that require further investigation, we can list the impact of
various components in a relevance judgment generation pipeline, such as the
prompt used or the LLM chosen.
This paper benchmarks and reports on the results of a large-scale automatic
relevance judgment evaluation, the LLMJudge challenge at SIGIR 2024, where
different relevance assessment approaches were proposed. In detail, we release
and benchmark 42 LLM-generated labels of the TREC 2023 Deep Learning track
relevance judgments produced by eight international teams who participated in
the challenge. Given their diverse nature, these automatically generated
relevance judgments can help the community not only investigate systematic
biases caused by LLMs but also explore the effectiveness of ensemble models,
analyze the trade-offs between different models and human assessors, and
advance methodologies for improving automated evaluation techniques. The
released resource is available at the following link:
https://llm4eval.github.io/LLMJudge-benchmark/Summary
AI-Generated Summary