Fusion-Eval: Integrando Avaliadores com Modelos de Linguagem de Grande Escala
Fusion-Eval: Integrating Evaluators with LLMs
November 15, 2023
Autores: Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng
cs.AI
Resumo
A avaliação de Modelos de Linguagem de Grande Escala (LLMs) é uma tarefa complexa, especialmente considerando as nuances do entendimento de linguagem natural e as expectativas para raciocínio de alto nível. As avaliações tradicionais geralmente se baseiam em paradigmas baseados em humanos, em modelos ou em métricas automáticas, cada um com suas próprias vantagens e limitações. Apresentamos o "Fusion-Eval", um sistema que emprega LLMs não apenas para avaliações diretas, mas para integrar habilmente insights de diversos avaliadores. Isso confere ao Fusion-Eval flexibilidade, permitindo que ele funcione de forma eficaz em diversas tarefas e faça o melhor uso de múltiplas referências. Nos testes realizados com o conjunto de dados SummEval, o Fusion-Eval alcançou uma correlação de Spearman de 0,96, superando outros avaliadores. O sucesso do Fusion-Eval destaca o potencial dos LLMs para produzir avaliações que se alinham de perto com as perspectivas humanas, estabelecendo um novo padrão no campo de avaliação de LLMs.
English
Evaluating Large Language Models (LLMs) is a complex task, especially
considering the intricacies of natural language understanding and the
expectations for high-level reasoning. Traditional evaluations typically lean
on human-based, model-based, or automatic-metrics-based paradigms, each with
its own advantages and shortcomings. We introduce "Fusion-Eval", a system that
employs LLMs not solely for direct evaluations, but to skillfully integrate
insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling
it to work effectively across diverse tasks and make optimal use of multiple
references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman
correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval
underscores the potential of LLMs to produce evaluations that closely align
human perspectives, setting a new standard in the field of LLM evaluation.