Een efficiënte multi-turn dialoogbeoordelaar leren van meerdere beoordelaars

Samenvatting

Het evalueren van de conversatievaardigheden van grote taalmodellen (LLM's) blijft een uitdagende taak. De huidige mainstream benaderingen vertrouwen voornamelijk op het "LLM-als-rechter"-paradigma, waarbij een LLM wordt aangestuurd om als evaluator te dienen en de dialoogkwaliteit te beoordelen. Dergelijke methoden lijden echter vaak onder verschillende vormen van bias, wat de betrouwbaarheid en consistentie van de evaluatieresultaten ondermijnt. Om deze biases te verminderen, gebruiken recente methoden meerdere LLM's als rechters en aggregeren hun oordelen om de optimale beoordeling te selecteren. Hoewel effectief, brengt deze multi-rechteraanpak aanzienlijke rekenkundige overhead met zich mee tijdens de inferentie. In dit artikel stellen we een efficiënte multi-turn dialoogbeoordelaar voor die de collectieve wijsheid van meerdere LLM-rechters vastlegt door hun voorkeurskennis te aggregeren in een enkel model. Onze aanpak behoudt de voordelen van diverse multi-rechterfeedback terwijl de evaluatiekosten drastisch worden verlaagd, wat snelle en flexibele beoordeling van dialoogkwaliteit mogelijk maakt. Uitgebreide experimenten op zeven benchmarks voor enkelvoudige beoordeling en paarsgewijze vergelijking van dialoogevaluatie tonen aan dat onze methode de bestaande baselines in diverse scenario's overtreft, wat de efficiëntie en robuustheid ervan aantoont.

English

Evaluating the conversational abilities of large language models (LLMs) remains a challenging task. Current mainstream approaches primarily rely on the ``LLM-as-a-judge" paradigm, where an LLM is prompted to serve as an evaluator to assess dialogue quality. However, such methods often suffer from various biases, which undermine the reliability and consistency of the evaluation results. To mitigate these biases, recent methods employ multiple LLMs as judges and aggregate their judgments to select the optimal assessment. Although effective, this multi-judge approach incurs significant computational overhead during inference. In this paper, we propose an efficient multi-turn dialogue evaluator that captures the collective wisdom of multiple LLM judges by aggregating their preference knowledge into a single model. Our approach preserves the advantages of diverse multi-judge feedback while drastically reducing the evaluation cost, enabling fast and flexible dialogue quality assessment. Extensive experiments on seven single rating and pairwise comparison dialogue evaluation benchmarks demonstrate that our method outperforms existing baselines across diverse scenarios, showcasing its efficiency and robustness.

Een efficiënte multi-turn dialoogbeoordelaar leren van meerdere beoordelaars

Learning an Efficient Multi-Turn Dialogue Evaluator from Multiple Judges

Samenvatting

Support