Fusion-Eval: Интеграция систем оценки с языковыми моделями
Fusion-Eval: Integrating Evaluators with LLMs
November 15, 2023
Авторы: Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng
cs.AI
Аннотация
Оценка больших языковых моделей (LLM) представляет собой сложную задачу, особенно с учетом тонкостей понимания естественного языка и ожиданий высокоуровневого рассуждения. Традиционные методы оценки обычно опираются на парадигмы, основанные на человеческом суждении, моделях или автоматических метриках, каждая из которых имеет свои преимущества и недостатки. Мы представляем систему "Fusion-Eval", которая использует LLM не только для прямых оценок, но и для умелого объединения выводов от различных оценщиков. Это придает Fusion-Eval гибкость, позволяя ей эффективно работать с разнообразными задачами и оптимально использовать множественные источники. В тестах на наборе данных SummEval Fusion-Eval достигла коэффициента корреляции Спирмена 0.96, превзойдя другие методы оценки. Успех Fusion-Eval подчеркивает потенциал LLM для создания оценок, которые тесно соответствуют человеческим представлениям, устанавливая новый стандарт в области оценки LLM.
English
Evaluating Large Language Models (LLMs) is a complex task, especially
considering the intricacies of natural language understanding and the
expectations for high-level reasoning. Traditional evaluations typically lean
on human-based, model-based, or automatic-metrics-based paradigms, each with
its own advantages and shortcomings. We introduce "Fusion-Eval", a system that
employs LLMs not solely for direct evaluations, but to skillfully integrate
insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling
it to work effectively across diverse tasks and make optimal use of multiple
references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman
correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval
underscores the potential of LLMs to produce evaluations that closely align
human perspectives, setting a new standard in the field of LLM evaluation.