Fusion-Eval: Integrando Avaliadores com Modelos de Linguagem de Grande Escala

Resumo

A avaliação de Modelos de Linguagem de Grande Escala (LLMs) é uma tarefa complexa, especialmente considerando as nuances do entendimento de linguagem natural e as expectativas para raciocínio de alto nível. As avaliações tradicionais geralmente se baseiam em paradigmas baseados em humanos, em modelos ou em métricas automáticas, cada um com suas próprias vantagens e limitações. Apresentamos o "Fusion-Eval", um sistema que emprega LLMs não apenas para avaliações diretas, mas para integrar habilmente insights de diversos avaliadores. Isso confere ao Fusion-Eval flexibilidade, permitindo que ele funcione de forma eficaz em diversas tarefas e faça o melhor uso de múltiplas referências. Nos testes realizados com o conjunto de dados SummEval, o Fusion-Eval alcançou uma correlação de Spearman de 0,96, superando outros avaliadores. O sucesso do Fusion-Eval destaca o potencial dos LLMs para produzir avaliações que se alinham de perto com as perspectivas humanas, estabelecendo um novo padrão no campo de avaliação de LLMs.

English

Evaluating Large Language Models (LLMs) is a complex task, especially considering the intricacies of natural language understanding and the expectations for high-level reasoning. Traditional evaluations typically lean on human-based, model-based, or automatic-metrics-based paradigms, each with its own advantages and shortcomings. We introduce "Fusion-Eval", a system that employs LLMs not solely for direct evaluations, but to skillfully integrate insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling it to work effectively across diverse tasks and make optimal use of multiple references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval underscores the potential of LLMs to produce evaluations that closely align human perspectives, setting a new standard in the field of LLM evaluation.

Fusion-Eval: Integrando Avaliadores com Modelos de Linguagem de Grande Escala

Fusion-Eval: Integrating Evaluators with LLMs

Resumo

Support