Fusion-Eval: Integrazione di Valutatori con Modelli Linguistici di Grandi Dimensioni

Abstract

Valutare i modelli linguistici di grandi dimensioni (LLM) è un compito complesso, soprattutto considerando le intricate sfaccettature della comprensione del linguaggio naturale e le aspettative di ragionamento di alto livello. Le valutazioni tradizionali si basano tipicamente su paradigmi basati su esseri umani, su modelli o su metriche automatiche, ciascuno con i propri vantaggi e limiti. Introduciamo "Fusion-Eval", un sistema che impiega gli LLM non solo per valutazioni dirette, ma per integrare abilmente le intuizioni provenienti da diversi valutatori. Ciò conferisce a Fusion-Eval flessibilità, consentendogli di operare efficacemente su una vasta gamma di compiti e di sfruttare al meglio molteplici riferimenti. Nei test condotti sul dataset SummEval, Fusion-Eval ha raggiunto una correlazione di Spearman di 0,96, superando altri valutatori. Il successo di Fusion-Eval sottolinea il potenziale degli LLM nel produrre valutazioni che si allineano strettamente alle prospettive umane, stabilendo un nuovo standard nel campo della valutazione degli LLM.

English

Evaluating Large Language Models (LLMs) is a complex task, especially considering the intricacies of natural language understanding and the expectations for high-level reasoning. Traditional evaluations typically lean on human-based, model-based, or automatic-metrics-based paradigms, each with its own advantages and shortcomings. We introduce "Fusion-Eval", a system that employs LLMs not solely for direct evaluations, but to skillfully integrate insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling it to work effectively across diverse tasks and make optimal use of multiple references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval underscores the potential of LLMs to produce evaluations that closely align human perspectives, setting a new standard in the field of LLM evaluation.

Fusion-Eval: Integrazione di Valutatori con Modelli Linguistici di Grandi Dimensioni

Fusion-Eval: Integrating Evaluators with LLMs

Abstract

Support