Fusion-Eval: Integration von Evaluatoren mit LLMs
Fusion-Eval: Integrating Evaluators with LLMs
November 15, 2023
Autoren: Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng
cs.AI
Zusammenfassung
Die Bewertung von Large Language Models (LLMs) ist eine komplexe Aufgabe, insbesondere angesichts der Feinheiten des natürlichen Sprachverständnisses und der Erwartungen an hochrangiges Denken. Traditionelle Bewertungsmethoden stützen sich typischerweise auf menschenbasierte, modellbasierte oder automatische Metriken, wobei jede dieser Ansätze ihre eigenen Vor- und Nachteile hat. Wir stellen „Fusion-Eval“ vor, ein System, das LLMs nicht ausschließlich für direkte Bewertungen einsetzt, sondern geschickt Erkenntnisse aus verschiedenen Bewertern integriert. Dies verleiht Fusion-Eval Flexibilität, sodass es effektiv über verschiedene Aufgaben hinweg arbeiten und optimal mehrere Referenzen nutzen kann. Bei Tests am SummEval-Datensatz erreichte Fusion-Eval eine Spearman-Korrelation von 0,96 und übertraf damit andere Bewertungssysteme. Der Erfolg von Fusion-Eval unterstreicht das Potenzial von LLMs, Bewertungen zu erzeugen, die eng mit menschlichen Perspektiven übereinstimmen, und setzt damit einen neuen Standard im Bereich der LLM-Bewertung.
English
Evaluating Large Language Models (LLMs) is a complex task, especially
considering the intricacies of natural language understanding and the
expectations for high-level reasoning. Traditional evaluations typically lean
on human-based, model-based, or automatic-metrics-based paradigms, each with
its own advantages and shortcomings. We introduce "Fusion-Eval", a system that
employs LLMs not solely for direct evaluations, but to skillfully integrate
insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling
it to work effectively across diverse tasks and make optimal use of multiple
references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman
correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval
underscores the potential of LLMs to produce evaluations that closely align
human perspectives, setting a new standard in the field of LLM evaluation.