ChatPaper.aiChatPaper

Fusion-Eval: Integration von Evaluatoren mit LLMs

Fusion-Eval: Integrating Evaluators with LLMs

November 15, 2023
Autoren: Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng
cs.AI

Zusammenfassung

Die Bewertung von Large Language Models (LLMs) ist eine komplexe Aufgabe, insbesondere angesichts der Feinheiten des natürlichen Sprachverständnisses und der Erwartungen an hochrangiges Denken. Traditionelle Bewertungsmethoden stützen sich typischerweise auf menschenbasierte, modellbasierte oder automatische Metriken, wobei jede dieser Ansätze ihre eigenen Vor- und Nachteile hat. Wir stellen „Fusion-Eval“ vor, ein System, das LLMs nicht ausschließlich für direkte Bewertungen einsetzt, sondern geschickt Erkenntnisse aus verschiedenen Bewertern integriert. Dies verleiht Fusion-Eval Flexibilität, sodass es effektiv über verschiedene Aufgaben hinweg arbeiten und optimal mehrere Referenzen nutzen kann. Bei Tests am SummEval-Datensatz erreichte Fusion-Eval eine Spearman-Korrelation von 0,96 und übertraf damit andere Bewertungssysteme. Der Erfolg von Fusion-Eval unterstreicht das Potenzial von LLMs, Bewertungen zu erzeugen, die eng mit menschlichen Perspektiven übereinstimmen, und setzt damit einen neuen Standard im Bereich der LLM-Bewertung.
English
Evaluating Large Language Models (LLMs) is a complex task, especially considering the intricacies of natural language understanding and the expectations for high-level reasoning. Traditional evaluations typically lean on human-based, model-based, or automatic-metrics-based paradigms, each with its own advantages and shortcomings. We introduce "Fusion-Eval", a system that employs LLMs not solely for direct evaluations, but to skillfully integrate insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling it to work effectively across diverse tasks and make optimal use of multiple references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval underscores the potential of LLMs to produce evaluations that closely align human perspectives, setting a new standard in the field of LLM evaluation.
PDF62December 15, 2024