Fusion-Eval : Intégration des évaluateurs avec les modèles de langage de grande taille
Fusion-Eval: Integrating Evaluators with LLMs
November 15, 2023
Auteurs: Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng
cs.AI
Résumé
L'évaluation des grands modèles de langage (LLMs) constitue une tâche complexe, notamment en raison des subtilités de la compréhension du langage naturel et des attentes en matière de raisonnement de haut niveau. Les évaluations traditionnelles s'appuient généralement sur des paradigmes basés sur l'humain, sur des modèles ou sur des métriques automatiques, chacun présentant ses propres avantages et inconvénients. Nous présentons "Fusion-Eval", un système qui utilise les LLMs non seulement pour des évaluations directes, mais aussi pour intégrer habilement les insights provenant de divers évaluateurs. Cela confère à Fusion-Eval une grande flexibilité, lui permettant de fonctionner efficacement sur des tâches variées et d'exploiter au mieux plusieurs références. Lors des tests sur le jeu de données SummEval, Fusion-Eval a atteint une corrélation de Spearman de 0,96, surpassant ainsi les autres évaluateurs. Le succès de Fusion-Eval met en lumière le potentiel des LLMs à produire des évaluations qui s'alignent étroitement sur les perspectives humaines, établissant ainsi une nouvelle norme dans le domaine de l'évaluation des LLMs.
English
Evaluating Large Language Models (LLMs) is a complex task, especially
considering the intricacies of natural language understanding and the
expectations for high-level reasoning. Traditional evaluations typically lean
on human-based, model-based, or automatic-metrics-based paradigms, each with
its own advantages and shortcomings. We introduce "Fusion-Eval", a system that
employs LLMs not solely for direct evaluations, but to skillfully integrate
insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling
it to work effectively across diverse tasks and make optimal use of multiple
references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman
correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval
underscores the potential of LLMs to produce evaluations that closely align
human perspectives, setting a new standard in the field of LLM evaluation.