Fusion-Eval: Интеграция систем оценки с языковыми моделями

Аннотация

Оценка больших языковых моделей (LLM) представляет собой сложную задачу, особенно с учетом тонкостей понимания естественного языка и ожиданий высокоуровневого рассуждения. Традиционные методы оценки обычно опираются на парадигмы, основанные на человеческом суждении, моделях или автоматических метриках, каждая из которых имеет свои преимущества и недостатки. Мы представляем систему "Fusion-Eval", которая использует LLM не только для прямых оценок, но и для умелого объединения выводов от различных оценщиков. Это придает Fusion-Eval гибкость, позволяя ей эффективно работать с разнообразными задачами и оптимально использовать множественные источники. В тестах на наборе данных SummEval Fusion-Eval достигла коэффициента корреляции Спирмена 0.96, превзойдя другие методы оценки. Успех Fusion-Eval подчеркивает потенциал LLM для создания оценок, которые тесно соответствуют человеческим представлениям, устанавливая новый стандарт в области оценки LLM.

English

Evaluating Large Language Models (LLMs) is a complex task, especially considering the intricacies of natural language understanding and the expectations for high-level reasoning. Traditional evaluations typically lean on human-based, model-based, or automatic-metrics-based paradigms, each with its own advantages and shortcomings. We introduce "Fusion-Eval", a system that employs LLMs not solely for direct evaluations, but to skillfully integrate insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling it to work effectively across diverse tasks and make optimal use of multiple references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval underscores the potential of LLMs to produce evaluations that closely align human perspectives, setting a new standard in the field of LLM evaluation.

Fusion-Eval: Интеграция систем оценки с языковыми моделями

Fusion-Eval: Integrating Evaluators with LLMs

Аннотация

Support