RevisEval: Mejorando LLM como Juez a través de Referencias Adaptadas a la Respuesta

Resumen

Con esfuerzos significativos en estudios recientes, LLM-como-Juez se ha convertido en una alternativa rentable a la evaluación humana para evaluar la calidad de generación de texto en una amplia gama de tareas. Sin embargo, todavía existe una brecha de confiabilidad entre LLM-como-Juez y la evaluación humana. Una razón importante es la falta de oráculos guiados en el proceso de evaluación. Motivados por el papel de la referencia ampliamente utilizada en la evaluación clásica de texto, presentamos RevisEval, un nuevo paradigma de evaluación de generación de texto a través de las referencias adaptadas a la respuesta. RevisEval se basa en la observación clave de que una referencia ideal debe mantener la relevancia necesaria para la respuesta que se va a evaluar. Específicamente, RevisEval aprovecha las capacidades de revisión de texto de los modelos de lenguaje grandes (LLMs) para revisar adaptativamente la respuesta, luego trata el texto revisado como la referencia (referencia adaptada a la respuesta) para la evaluación posterior. Experimentos extensos demuestran que RevisEval supera a los paradigmas tradicionales de evaluación sin referencia y basados en referencia que utilizan LLM-como-Juez en tareas de generación de lenguaje natural y tareas de seguimiento de instrucciones abiertas. Más importante aún, nuestras referencias adaptadas a la respuesta pueden mejorar aún más las métricas de texto clásicas, como BLEU y BERTScore, en comparación con las referencias tradicionales e incluso rivalizar con LLM-como-Juez. También se realiza un análisis detallado para confirmar la efectividad de RevisEval en la reducción de sesgos, el impacto del costo de inferencia y la relevancia de la referencia.

English

With significant efforts in recent studies, LLM-as-a-Judge has become a cost-effective alternative to human evaluation for assessing the text generation quality in a wide range of tasks. However, there still remains a reliability gap between LLM-as-a-Judge and human evaluation. One important reason is the lack of guided oracles in the evaluation process. Motivated by the role of reference pervasively used in classic text evaluation, we introduce RevisEval, a novel text generation evaluation paradigm via the response-adapted references. RevisEval is driven by the key observation that an ideal reference should maintain the necessary relevance to the response to be evaluated. Specifically, RevisEval leverages the text revision capabilities of large language models (LLMs) to adaptively revise the response, then treat the revised text as the reference (response-adapted reference) for the subsequent evaluation. Extensive experiments demonstrate that RevisEval outperforms traditional reference-free and reference-based evaluation paradigms that use LLM-as-a-Judge across NLG tasks and open-ended instruction-following tasks. More importantly, our response-adapted references can further boost the classical text metrics, e.g., BLEU and BERTScore, compared to traditional references and even rival the LLM-as-a-Judge. A detailed analysis is also conducted to confirm RevisEval's effectiveness in bias reduction, the impact of inference cost, and reference relevance.

RevisEval: Mejorando LLM como Juez a través de Referencias Adaptadas a la Respuesta

RevisEval: Improving LLM-as-a-Judge via Response-Adapted References

Resumen

Support