Evaluando a los evaluadores: Una colección de juicios de relevancia generados por modelos de lenguaje
Judging the Judges: A Collection of LLM-Generated Relevance Judgements
February 19, 2025
Autores: Hossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz
cs.AI
Resumen
El uso de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para evaluaciones de relevancia ofrece oportunidades prometedoras para mejorar la Recuperación de Información (IR), el Procesamiento del Lenguaje Natural (NLP) y campos relacionados. De hecho, los LLMs tienen el potencial de permitir a los experimentadores en IR construir colecciones de evaluación con una fracción del trabajo manual humano que actualmente se requiere. Esto podría ser útil para temas emergentes sobre los cuales aún hay conocimiento limitado y podría mitigar los desafíos de evaluar sistemas de clasificación en escenarios de bajos recursos, donde es difícil encontrar anotadores humanos. Dados los recientes y rápidos avances en este dominio, muchas preguntas relacionadas con el uso de LLMs como evaluadores aún están por responderse. Entre los aspectos que requieren mayor investigación, se pueden mencionar el impacto de varios componentes en un flujo de generación de juicios de relevancia, como el *prompt* utilizado o el LLM seleccionado.
Este artículo evalúa y reporta los resultados de una evaluación a gran escala de juicios de relevancia automáticos, el desafío LLMJudge en SIGIR 2024, donde se propusieron diferentes enfoques de evaluación de relevancia. En detalle, publicamos y evaluamos 42 etiquetas generadas por LLMs de los juicios de relevancia de la pista de Aprendizaje Profundo de TREC 2023, producidas por ocho equipos internacionales que participaron en el desafío. Dada su naturaleza diversa, estos juicios de relevancia generados automáticamente pueden ayudar a la comunidad no solo a investigar sesgos sistemáticos causados por los LLMs, sino también a explorar la efectividad de modelos de conjunto, analizar las compensaciones entre diferentes modelos y evaluadores humanos, y avanzar en metodologías para mejorar las técnicas de evaluación automatizada. El recurso publicado está disponible en el siguiente enlace: https://llm4eval.github.io/LLMJudge-benchmark/
English
Using Large Language Models (LLMs) for relevance assessments offers promising
opportunities to improve Information Retrieval (IR), Natural Language
Processing (NLP), and related fields. Indeed, LLMs hold the promise of allowing
IR experimenters to build evaluation collections with a fraction of the manual
human labor currently required. This could help with fresh topics on which
there is still limited knowledge and could mitigate the challenges of
evaluating ranking systems in low-resource scenarios, where it is challenging
to find human annotators. Given the fast-paced recent developments in the
domain, many questions concerning LLMs as assessors are yet to be answered.
Among the aspects that require further investigation, we can list the impact of
various components in a relevance judgment generation pipeline, such as the
prompt used or the LLM chosen.
This paper benchmarks and reports on the results of a large-scale automatic
relevance judgment evaluation, the LLMJudge challenge at SIGIR 2024, where
different relevance assessment approaches were proposed. In detail, we release
and benchmark 42 LLM-generated labels of the TREC 2023 Deep Learning track
relevance judgments produced by eight international teams who participated in
the challenge. Given their diverse nature, these automatically generated
relevance judgments can help the community not only investigate systematic
biases caused by LLMs but also explore the effectiveness of ensemble models,
analyze the trade-offs between different models and human assessors, and
advance methodologies for improving automated evaluation techniques. The
released resource is available at the following link:
https://llm4eval.github.io/LLMJudge-benchmark/Summary
AI-Generated Summary