Avaliando os Avaliadores: Uma Coleção de Julgamentos de Relevância Gerados por LLMs
Judging the Judges: A Collection of LLM-Generated Relevance Judgements
February 19, 2025
Autores: Hossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz
cs.AI
Resumo
O uso de Modelos de Linguagem de Grande Escala (LLMs) para avaliações de relevância oferece oportunidades promissoras para aprimorar a Recuperação de Informação (IR), o Processamento de Linguagem Natural (NLP) e áreas relacionadas. De fato, os LLMs têm o potencial de permitir que pesquisadores de IR construam coleções de avaliação com uma fração do trabalho manual humano atualmente necessário. Isso pode ser útil para tópicos emergentes sobre os quais ainda há conhecimento limitado e pode mitigar os desafios de avaliar sistemas de classificação em cenários de baixos recursos, onde é difícil encontrar anotadores humanos. Dado o rápido desenvolvimento recente nesse domínio, muitas questões sobre o uso de LLMs como avaliadores ainda precisam ser respondidas. Entre os aspectos que exigem investigação adicional, podemos citar o impacto de vários componentes em um pipeline de geração de julgamentos de relevância, como o prompt utilizado ou o LLM escolhido.
Este artigo apresenta e relata os resultados de uma avaliação em larga escala de julgamentos de relevância automáticos, o desafio LLMJudge na SIGIR 2024, onde diferentes abordagens de avaliação de relevância foram propostas. Em detalhes, disponibilizamos e avaliamos 42 rótulos gerados por LLMs dos julgamentos de relevância da trilha de Aprendizado Profundo do TREC 2023, produzidos por oito equipes internacionais que participaram do desafio. Dada sua natureza diversa, esses julgamentos de relevância gerados automaticamente podem ajudar a comunidade não apenas a investigar vieses sistemáticos causados por LLMs, mas também a explorar a eficácia de modelos de ensemble, analisar as compensações entre diferentes modelos e avaliadores humanos, e avançar metodologias para melhorar técnicas de avaliação automatizada. O recurso liberado está disponível no seguinte link:
https://llm4eval.github.io/LLMJudge-benchmark/
English
Using Large Language Models (LLMs) for relevance assessments offers promising
opportunities to improve Information Retrieval (IR), Natural Language
Processing (NLP), and related fields. Indeed, LLMs hold the promise of allowing
IR experimenters to build evaluation collections with a fraction of the manual
human labor currently required. This could help with fresh topics on which
there is still limited knowledge and could mitigate the challenges of
evaluating ranking systems in low-resource scenarios, where it is challenging
to find human annotators. Given the fast-paced recent developments in the
domain, many questions concerning LLMs as assessors are yet to be answered.
Among the aspects that require further investigation, we can list the impact of
various components in a relevance judgment generation pipeline, such as the
prompt used or the LLM chosen.
This paper benchmarks and reports on the results of a large-scale automatic
relevance judgment evaluation, the LLMJudge challenge at SIGIR 2024, where
different relevance assessment approaches were proposed. In detail, we release
and benchmark 42 LLM-generated labels of the TREC 2023 Deep Learning track
relevance judgments produced by eight international teams who participated in
the challenge. Given their diverse nature, these automatically generated
relevance judgments can help the community not only investigate systematic
biases caused by LLMs but also explore the effectiveness of ensemble models,
analyze the trade-offs between different models and human assessors, and
advance methodologies for improving automated evaluation techniques. The
released resource is available at the following link:
https://llm4eval.github.io/LLMJudge-benchmark/Summary
AI-Generated Summary