Aprendizaje de un Evaluador Eficiente de Diálogos Multiturno a partir de Múltiples Jueces

Resumen

Evaluar las capacidades conversacionales de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sigue siendo una tarea desafiante. Los enfoques principales actuales se basan principalmente en el paradigma "LLM-como-juez", donde se solicita a un LLM que actúe como evaluador para valorar la calidad del diálogo. Sin embargo, estos métodos a menudo adolecen de diversos sesgos, lo que socava la fiabilidad y consistencia de los resultados de la evaluación. Para mitigar estos sesgos, métodos recientes emplean múltiples LLMs como jueces y agregan sus juicios para seleccionar la evaluación óptima. Aunque efectivo, este enfoque multi-juez incurre en un costo computacional significativo durante la inferencia. En este artículo, proponemos un evaluador eficiente de diálogos multi-turno que captura la sabiduría colectiva de múltiples jueces LLM al agregar su conocimiento de preferencias en un solo modelo. Nuestro enfoque preserva las ventajas de la retroalimentación diversa de múltiples jueces mientras reduce drásticamente el costo de evaluación, permitiendo una valoración rápida y flexible de la calidad del diálogo. Experimentos exhaustivos en siete benchmarks de evaluación de diálogos, tanto de calificación única como de comparación por pares, demuestran que nuestro método supera a las líneas base existentes en diversos escenarios, mostrando su eficiencia y robustez.

English

Evaluating the conversational abilities of large language models (LLMs) remains a challenging task. Current mainstream approaches primarily rely on the ``LLM-as-a-judge" paradigm, where an LLM is prompted to serve as an evaluator to assess dialogue quality. However, such methods often suffer from various biases, which undermine the reliability and consistency of the evaluation results. To mitigate these biases, recent methods employ multiple LLMs as judges and aggregate their judgments to select the optimal assessment. Although effective, this multi-judge approach incurs significant computational overhead during inference. In this paper, we propose an efficient multi-turn dialogue evaluator that captures the collective wisdom of multiple LLM judges by aggregating their preference knowledge into a single model. Our approach preserves the advantages of diverse multi-judge feedback while drastically reducing the evaluation cost, enabling fast and flexible dialogue quality assessment. Extensive experiments on seven single rating and pairwise comparison dialogue evaluation benchmarks demonstrate that our method outperforms existing baselines across diverse scenarios, showcasing its efficiency and robustness.

Aprendizaje de un Evaluador Eficiente de Diálogos Multiturno a partir de Múltiples Jueces

Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges

Resumen

Support