Aprendizaje de un Evaluador Eficiente de Diálogos Multiturno a partir de Múltiples Jueces
Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges
August 1, 2025
Autores: Yuqi Tang, Kehua Feng, Yunfeng Wang, Zhiwen Chen, Chengfei Lv, Gang Yu, Qiang Zhang, Keyan Ding
cs.AI
Resumen
Evaluar las capacidades conversacionales de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sigue siendo una tarea desafiante. Los enfoques principales actuales se basan principalmente en el paradigma "LLM-como-juez", donde se solicita a un LLM que actúe como evaluador para valorar la calidad del diálogo. Sin embargo, estos métodos a menudo adolecen de diversos sesgos, lo que socava la fiabilidad y consistencia de los resultados de la evaluación. Para mitigar estos sesgos, métodos recientes emplean múltiples LLMs como jueces y agregan sus juicios para seleccionar la evaluación óptima. Aunque efectivo, este enfoque multi-juez incurre en un costo computacional significativo durante la inferencia. En este artículo, proponemos un evaluador eficiente de diálogos multi-turno que captura la sabiduría colectiva de múltiples jueces LLM al agregar su conocimiento de preferencias en un solo modelo. Nuestro enfoque preserva las ventajas de la retroalimentación diversa de múltiples jueces mientras reduce drásticamente el costo de evaluación, permitiendo una valoración rápida y flexible de la calidad del diálogo. Experimentos exhaustivos en siete benchmarks de evaluación de diálogos, tanto de calificación única como de comparación por pares, demuestran que nuestro método supera a las líneas base existentes en diversos escenarios, mostrando su eficiencia y robustez.
English
Evaluating the conversational abilities of large language models (LLMs)
remains a challenging task. Current mainstream approaches primarily rely on the
``LLM-as-a-judge" paradigm, where an LLM is prompted to serve as an evaluator
to assess dialogue quality. However, such methods often suffer from various
biases, which undermine the reliability and consistency of the evaluation
results. To mitigate these biases, recent methods employ multiple LLMs as
judges and aggregate their judgments to select the optimal assessment. Although
effective, this multi-judge approach incurs significant computational overhead
during inference. In this paper, we propose an efficient multi-turn dialogue
evaluator that captures the collective wisdom of multiple LLM judges by
aggregating their preference knowledge into a single model. Our approach
preserves the advantages of diverse multi-judge feedback while drastically
reducing the evaluation cost, enabling fast and flexible dialogue quality
assessment. Extensive experiments on seven single rating and pairwise
comparison dialogue evaluation benchmarks demonstrate that our method
outperforms existing baselines across diverse scenarios, showcasing its
efficiency and robustness.