ChatPaper.aiChatPaper

Fusion-Eval: Integratie van Evaluatoren met LLM's

Fusion-Eval: Integrating Evaluators with LLMs

November 15, 2023
Auteurs: Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng
cs.AI

Samenvatting

Het evalueren van Large Language Models (LLM's) is een complexe taak, vooral gezien de nuances van natuurlijke taalbegrip en de verwachtingen voor hoogwaardig redeneren. Traditionele evaluaties baseren zich doorgaans op paradigma's die gebaseerd zijn op menselijke beoordelingen, modelgebaseerde methoden of automatische metrieken, elk met hun eigen voordelen en tekortkomingen. Wij introduceren "Fusion-Eval", een systeem dat LLM's niet alleen gebruikt voor directe evaluaties, maar ook om inzichten van diverse beoordelaars op een vaardige manier te integreren. Dit geeft Fusion-Eval flexibiliteit, waardoor het effectief kan werken over diverse taken en optimaal gebruik kan maken van meerdere referenties. Bij tests op de SummEval-dataset behaalde Fusion-Eval een Spearman-correlatie van 0.96, wat beter presteert dan andere evaluatoren. Het succes van Fusion-Eval benadrukt het potentieel van LLM's om evaluaties te produceren die nauw aansluiten bij menselijke perspectieven, en zet daarmee een nieuwe standaard in het veld van LLM-evaluatie.
English
Evaluating Large Language Models (LLMs) is a complex task, especially considering the intricacies of natural language understanding and the expectations for high-level reasoning. Traditional evaluations typically lean on human-based, model-based, or automatic-metrics-based paradigms, each with its own advantages and shortcomings. We introduce "Fusion-Eval", a system that employs LLMs not solely for direct evaluations, but to skillfully integrate insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling it to work effectively across diverse tasks and make optimal use of multiple references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval underscores the potential of LLMs to produce evaluations that closely align human perspectives, setting a new standard in the field of LLM evaluation.
PDF62December 15, 2024