RevisEval: Melhorando LLM-como-Juíz através de Referências Adaptadas à Resposta
RevisEval: Improving LLM-as-a-Judge via Response-Adapted References
October 7, 2024
Autores: Qiyuan Zhang, Yufei Wang, Tiezheng YU, Yuxin Jiang, Chuhan Wu, Liangyou Li, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma
cs.AI
Resumo
Com esforços significativos em estudos recentes, LLM-como-Juiz tornou-se uma alternativa econômica à avaliação humana para avaliar a qualidade da geração de texto em uma ampla gama de tarefas. No entanto, ainda existe uma lacuna de confiabilidade entre LLM-como-Juiz e a avaliação humana. Uma razão importante é a falta de oráculos guiados no processo de avaliação. Motivados pelo papel da referência amplamente utilizada na avaliação clássica de texto, introduzimos RevisEval, um novo paradigma de avaliação de geração de texto via referências adaptadas à resposta. RevisEval é impulsionado pela observação-chave de que uma referência ideal deve manter a relevância necessária para a resposta a ser avaliada. Especificamente, RevisEval aproveita as capacidades de revisão de texto dos grandes modelos de linguagem (LLMs) para revisar adaptativamente a resposta e, em seguida, tratar o texto revisado como a referência (referência adaptada à resposta) para a avaliação subsequente. Experimentos extensivos demonstram que RevisEval supera paradigmas tradicionais de avaliação sem referência e com referência que usam LLM-como-Juiz em tarefas de GNL e tarefas de seguir instruções abertas. Mais importante ainda, nossas referências adaptadas à resposta podem impulsionar ainda mais as métricas de texto clássicas, como BLEU e BERTScore, em comparação com referências tradicionais e até rivalizar com LLM-como-Juiz. Uma análise detalhada também é realizada para confirmar a eficácia do RevisEval na redução de viés, no impacto do custo de inferência e na relevância da referência.
English
With significant efforts in recent studies, LLM-as-a-Judge has become a
cost-effective alternative to human evaluation for assessing the text
generation quality in a wide range of tasks. However, there still remains a
reliability gap between LLM-as-a-Judge and human evaluation. One important
reason is the lack of guided oracles in the evaluation process. Motivated by
the role of reference pervasively used in classic text evaluation, we introduce
RevisEval, a novel text generation evaluation paradigm via the response-adapted
references. RevisEval is driven by the key observation that an ideal reference
should maintain the necessary relevance to the response to be evaluated.
Specifically, RevisEval leverages the text revision capabilities of large
language models (LLMs) to adaptively revise the response, then treat the
revised text as the reference (response-adapted reference) for the subsequent
evaluation. Extensive experiments demonstrate that RevisEval outperforms
traditional reference-free and reference-based evaluation paradigms that use
LLM-as-a-Judge across NLG tasks and open-ended instruction-following tasks.
More importantly, our response-adapted references can further boost the
classical text metrics, e.g., BLEU and BERTScore, compared to traditional
references and even rival the LLM-as-a-Judge. A detailed analysis is also
conducted to confirm RevisEval's effectiveness in bias reduction, the impact of
inference cost, and reference relevance.Summary
AI-Generated Summary