Fusion-Eval: Integración de Evaluadores con Modelos de Lenguaje de Gran Escala

Resumen

Evaluar los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es una tarea compleja, especialmente considerando las complejidades de la comprensión del lenguaje natural y las expectativas de razonamiento de alto nivel. Las evaluaciones tradicionales suelen basarse en paradigmas centrados en humanos, en modelos o en métricas automáticas, cada uno con sus propias ventajas y limitaciones. Presentamos "Fusion-Eval", un sistema que emplea LLMs no solo para evaluaciones directas, sino para integrar de manera hábil las perspectivas de diversos evaluadores. Esto otorga a Fusion-Eval flexibilidad, permitiéndole funcionar de manera efectiva en diversas tareas y aprovechar óptimamente múltiples referencias. En pruebas realizadas con el conjunto de datos SummEval, Fusion-Eval logró una correlación de Spearman de 0.96, superando a otros evaluadores. El éxito de Fusion-Eval subraya el potencial de los LLMs para producir evaluaciones que se alinean estrechamente con las perspectivas humanas, estableciendo un nuevo estándar en el campo de la evaluación de LLMs.

English

Evaluating Large Language Models (LLMs) is a complex task, especially considering the intricacies of natural language understanding and the expectations for high-level reasoning. Traditional evaluations typically lean on human-based, model-based, or automatic-metrics-based paradigms, each with its own advantages and shortcomings. We introduce "Fusion-Eval", a system that employs LLMs not solely for direct evaluations, but to skillfully integrate insights from diverse evaluators. This gives Fusion-Eval flexibility, enabling it to work effectively across diverse tasks and make optimal use of multiple references. In testing on the SummEval dataset, Fusion-Eval achieved a Spearman correlation of 0.96, outperforming other evaluators. The success of Fusion-Eval underscores the potential of LLMs to produce evaluations that closely align human perspectives, setting a new standard in the field of LLM evaluation.

Fusion-Eval: Integración de Evaluadores con Modelos de Lenguaje de Gran Escala

Fusion-Eval: Integrating Evaluators with LLMs

Resumen

Support