Aprendendo um Avaliador Eficiente de Diálogo Multi-turn a partir de Múltiplos Julgadores
Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges
August 1, 2025
Autores: Yuqi Tang, Kehua Feng, Yunfeng Wang, Zhiwen Chen, Chengfei Lv, Gang Yu, Qiang Zhang, Keyan Ding
cs.AI
Resumo
A avaliação das habilidades conversacionais de modelos de linguagem de grande escala (LLMs, na sigla em inglês) continua sendo uma tarefa desafiadora. As abordagens atuais predominantes dependem principalmente do paradigma "LLM-como-juiz", no qual um LLM é solicitado a atuar como avaliador para medir a qualidade do diálogo. No entanto, tais métodos frequentemente sofrem com diversos vieses, o que compromete a confiabilidade e a consistência dos resultados da avaliação. Para mitigar esses vieses, métodos recentes empregam múltiplos LLMs como juízes e agregam seus julgamentos para selecionar a avaliação ideal. Embora eficaz, essa abordagem de múltiplos juízes incorre em um custo computacional significativo durante a inferência. Neste artigo, propomos um avaliador eficiente de diálogos multi-turn que captura a sabedoria coletiva de múltiplos juízes LLM ao agregar seu conhecimento de preferência em um único modelo. Nossa abordagem preserva as vantagens do feedback diversificado de múltiplos juízes enquanto reduz drasticamente o custo da avaliação, permitindo uma avaliação rápida e flexível da qualidade do diálogo. Experimentos extensivos em sete benchmarks de avaliação de diálogos, tanto para classificação única quanto para comparação pareada, demonstram que nosso método supera as abordagens existentes em diversos cenários, destacando sua eficiência e robustez.
English
Evaluating the conversational abilities of large language models (LLMs)
remains a challenging task. Current mainstream approaches primarily rely on the
``LLM-as-a-judge" paradigm, where an LLM is prompted to serve as an evaluator
to assess dialogue quality. However, such methods often suffer from various
biases, which undermine the reliability and consistency of the evaluation
results. To mitigate these biases, recent methods employ multiple LLMs as
judges and aggregate their judgments to select the optimal assessment. Although
effective, this multi-judge approach incurs significant computational overhead
during inference. In this paper, we propose an efficient multi-turn dialogue
evaluator that captures the collective wisdom of multiple LLM judges by
aggregating their preference knowledge into a single model. Our approach
preserves the advantages of diverse multi-judge feedback while drastically
reducing the evaluation cost, enabling fast and flexible dialogue quality
assessment. Extensive experiments on seven single rating and pairwise
comparison dialogue evaluation benchmarks demonstrate that our method
outperforms existing baselines across diverse scenarios, showcasing its
efficiency and robustness.