Fusion-Eval: Integrazione di Valutatori con Modelli Linguistici di Grandi Dimensioni
Fusion-Eval: Integrating Evaluators with LLMs
November 15, 2023
Autori: Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng
cs.AI
Abstract
Valutare i modelli linguistici di grandi dimensioni (LLM) è un compito complesso, soprattutto considerando le intricate sfaccettature della comprensione del linguaggio naturale e le aspettative di ragionamento di alto livello. Le valutazioni tradizionali si basano tipicamente su paradigmi basati su esseri umani, su modelli o su metriche automatiche, ciascuno con i propri vantaggi e limiti. Introduciamo "Fusion-Eval", un sistema che impiega gli LLM non solo per valutazioni dirette, ma per integrare abilmente le intuizioni provenienti da diversi valutatori. Ciò conferisce a Fusion-Eval flessibilità, consentendogli di operare efficacemente su una vasta gamma di compiti e di sfruttare al meglio molteplici riferimenti. Nei test condotti sul dataset SummEval, Fusion-Eval ha raggiunto una correlazione di Spearman di 0,96, superando altri valutatori. Il successo di Fusion-Eval sottolinea il potenziale degli LLM nel produrre valutazioni che si allineano strettamente alle prospettive umane, stabilendo un nuovo standard nel campo della valutazione degli LLM.
English
Evaluating Large Language Models (LLMs) is a complex task, especially
considering the intricacies of natural language understanding and the
expectations for high-level reasoning. Traditional evaluations typically lean
on human-based, model-based, or automatic-metrics-based paradigms, each with
its own advantages and shortcomings. We introduce "Fusion-Eval", a system that
employs LLMs not solely for direct evaluations, but to skillfully integrate
insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling
it to work effectively across diverse tasks and make optimal use of multiple
references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman
correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval
underscores the potential of LLMs to produce evaluations that closely align
human perspectives, setting a new standard in the field of LLM evaluation.