Fusion-Eval: Integración de Evaluadores con Modelos de Lenguaje de Gran Escala
Fusion-Eval: Integrating Evaluators with LLMs
November 15, 2023
Autores: Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng
cs.AI
Resumen
Evaluar los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es una tarea compleja, especialmente considerando las complejidades de la comprensión del lenguaje natural y las expectativas de razonamiento de alto nivel. Las evaluaciones tradicionales suelen basarse en paradigmas centrados en humanos, en modelos o en métricas automáticas, cada uno con sus propias ventajas y limitaciones. Presentamos "Fusion-Eval", un sistema que emplea LLMs no solo para evaluaciones directas, sino para integrar de manera hábil las perspectivas de diversos evaluadores. Esto otorga a Fusion-Eval flexibilidad, permitiéndole funcionar de manera efectiva en diversas tareas y aprovechar óptimamente múltiples referencias. En pruebas realizadas con el conjunto de datos SummEval, Fusion-Eval logró una correlación de Spearman de 0.96, superando a otros evaluadores. El éxito de Fusion-Eval subraya el potencial de los LLMs para producir evaluaciones que se alinean estrechamente con las perspectivas humanas, estableciendo un nuevo estándar en el campo de la evaluación de LLMs.
English
Evaluating Large Language Models (LLMs) is a complex task, especially
considering the intricacies of natural language understanding and the
expectations for high-level reasoning. Traditional evaluations typically lean
on human-based, model-based, or automatic-metrics-based paradigms, each with
its own advantages and shortcomings. We introduce "Fusion-Eval", a system that
employs LLMs not solely for direct evaluations, but to skillfully integrate
insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling
it to work effectively across diverse tasks and make optimal use of multiple
references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman
correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval
underscores the potential of LLMs to produce evaluations that closely align
human perspectives, setting a new standard in the field of LLM evaluation.