Een efficiënte multi-turn dialoogbeoordelaar leren van meerdere beoordelaars
Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges
August 1, 2025
Auteurs: Yuqi Tang, Kehua Feng, Yunfeng Wang, Zhiwen Chen, Chengfei Lv, Gang Yu, Qiang Zhang, Keyan Ding
cs.AI
Samenvatting
Het evalueren van de conversatievaardigheden van grote taalmodellen (LLM's) blijft een uitdagende taak. De huidige mainstream benaderingen vertrouwen voornamelijk op het "LLM-als-rechter"-paradigma, waarbij een LLM wordt aangestuurd om als evaluator te dienen en de dialoogkwaliteit te beoordelen. Dergelijke methoden lijden echter vaak onder verschillende vormen van bias, wat de betrouwbaarheid en consistentie van de evaluatieresultaten ondermijnt. Om deze biases te verminderen, gebruiken recente methoden meerdere LLM's als rechters en aggregeren hun oordelen om de optimale beoordeling te selecteren. Hoewel effectief, brengt deze multi-rechteraanpak aanzienlijke rekenkundige overhead met zich mee tijdens de inferentie. In dit artikel stellen we een efficiënte multi-turn dialoogbeoordelaar voor die de collectieve wijsheid van meerdere LLM-rechters vastlegt door hun voorkeurskennis te aggregeren in een enkel model. Onze aanpak behoudt de voordelen van diverse multi-rechterfeedback terwijl de evaluatiekosten drastisch worden verlaagd, wat snelle en flexibele beoordeling van dialoogkwaliteit mogelijk maakt. Uitgebreide experimenten op zeven benchmarks voor enkelvoudige beoordeling en paarsgewijze vergelijking van dialoogevaluatie tonen aan dat onze methode de bestaande baselines in diverse scenario's overtreft, wat de efficiëntie en robuustheid ervan aantoont.
English
Evaluating the conversational abilities of large language models (LLMs)
remains a challenging task. Current mainstream approaches primarily rely on the
``LLM-as-a-judge" paradigm, where an LLM is prompted to serve as an evaluator
to assess dialogue quality. However, such methods often suffer from various
biases, which undermine the reliability and consistency of the evaluation
results. To mitigate these biases, recent methods employ multiple LLMs as
judges and aggregate their judgments to select the optimal assessment. Although
effective, this multi-judge approach incurs significant computational overhead
during inference. In this paper, we propose an efficient multi-turn dialogue
evaluator that captures the collective wisdom of multiple LLM judges by
aggregating their preference knowledge into a single model. Our approach
preserves the advantages of diverse multi-judge feedback while drastically
reducing the evaluation cost, enabling fast and flexible dialogue quality
assessment. Extensive experiments on seven single rating and pairwise
comparison dialogue evaluation benchmarks demonstrate that our method
outperforms existing baselines across diverse scenarios, showcasing its
efficiency and robustness.