RevisEval: Mejorando LLM como Juez a través de Referencias Adaptadas a la Respuesta
RevisEval: Improving LLM-as-a-Judge via Response-Adapted References
October 7, 2024
Autores: Qiyuan Zhang, Yufei Wang, Tiezheng YU, Yuxin Jiang, Chuhan Wu, Liangyou Li, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma
cs.AI
Resumen
Con esfuerzos significativos en estudios recientes, LLM-como-Juez se ha convertido en una alternativa rentable a la evaluación humana para evaluar la calidad de generación de texto en una amplia gama de tareas. Sin embargo, todavía existe una brecha de confiabilidad entre LLM-como-Juez y la evaluación humana. Una razón importante es la falta de oráculos guiados en el proceso de evaluación. Motivados por el papel de la referencia ampliamente utilizada en la evaluación clásica de texto, presentamos RevisEval, un nuevo paradigma de evaluación de generación de texto a través de las referencias adaptadas a la respuesta. RevisEval se basa en la observación clave de que una referencia ideal debe mantener la relevancia necesaria para la respuesta que se va a evaluar. Específicamente, RevisEval aprovecha las capacidades de revisión de texto de los modelos de lenguaje grandes (LLMs) para revisar adaptativamente la respuesta, luego trata el texto revisado como la referencia (referencia adaptada a la respuesta) para la evaluación posterior. Experimentos extensos demuestran que RevisEval supera a los paradigmas tradicionales de evaluación sin referencia y basados en referencia que utilizan LLM-como-Juez en tareas de generación de lenguaje natural y tareas de seguimiento de instrucciones abiertas. Más importante aún, nuestras referencias adaptadas a la respuesta pueden mejorar aún más las métricas de texto clásicas, como BLEU y BERTScore, en comparación con las referencias tradicionales e incluso rivalizar con LLM-como-Juez. También se realiza un análisis detallado para confirmar la efectividad de RevisEval en la reducción de sesgos, el impacto del costo de inferencia y la relevancia de la referencia.
English
With significant efforts in recent studies, LLM-as-a-Judge has become a
cost-effective alternative to human evaluation for assessing the text
generation quality in a wide range of tasks. However, there still remains a
reliability gap between LLM-as-a-Judge and human evaluation. One important
reason is the lack of guided oracles in the evaluation process. Motivated by
the role of reference pervasively used in classic text evaluation, we introduce
RevisEval, a novel text generation evaluation paradigm via the response-adapted
references. RevisEval is driven by the key observation that an ideal reference
should maintain the necessary relevance to the response to be evaluated.
Specifically, RevisEval leverages the text revision capabilities of large
language models (LLMs) to adaptively revise the response, then treat the
revised text as the reference (response-adapted reference) for the subsequent
evaluation. Extensive experiments demonstrate that RevisEval outperforms
traditional reference-free and reference-based evaluation paradigms that use
LLM-as-a-Judge across NLG tasks and open-ended instruction-following tasks.
More importantly, our response-adapted references can further boost the
classical text metrics, e.g., BLEU and BERTScore, compared to traditional
references and even rival the LLM-as-a-Judge. A detailed analysis is also
conducted to confirm RevisEval's effectiveness in bias reduction, the impact of
inference cost, and reference relevance.Summary
AI-Generated Summary