ChatPaper.aiChatPaper

Fusion-Eval: Интеграция систем оценки с языковыми моделями

Fusion-Eval: Integrating Evaluators with LLMs

November 15, 2023
Авторы: Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng
cs.AI

Аннотация

Оценка больших языковых моделей (LLM) представляет собой сложную задачу, особенно с учетом тонкостей понимания естественного языка и ожиданий высокоуровневого рассуждения. Традиционные методы оценки обычно опираются на парадигмы, основанные на человеческом суждении, моделях или автоматических метриках, каждая из которых имеет свои преимущества и недостатки. Мы представляем систему "Fusion-Eval", которая использует LLM не только для прямых оценок, но и для умелого объединения выводов от различных оценщиков. Это придает Fusion-Eval гибкость, позволяя ей эффективно работать с разнообразными задачами и оптимально использовать множественные источники. В тестах на наборе данных SummEval Fusion-Eval достигла коэффициента корреляции Спирмена 0.96, превзойдя другие методы оценки. Успех Fusion-Eval подчеркивает потенциал LLM для создания оценок, которые тесно соответствуют человеческим представлениям, устанавливая новый стандарт в области оценки LLM.
English
Evaluating Large Language Models (LLMs) is a complex task, especially considering the intricacies of natural language understanding and the expectations for high-level reasoning. Traditional evaluations typically lean on human-based, model-based, or automatic-metrics-based paradigms, each with its own advantages and shortcomings. We introduce "Fusion-Eval", a system that employs LLMs not solely for direct evaluations, but to skillfully integrate insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling it to work effectively across diverse tasks and make optimal use of multiple references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval underscores the potential of LLMs to produce evaluations that closely align human perspectives, setting a new standard in the field of LLM evaluation.
PDF62December 15, 2024