RankJudge : un générateur de benchmarks synthétiques multi-tour LLM-as-a-Judge

Résumé

À mesure que des applications interactives basées sur les LLM sont créées et perfectionnées, les développeurs de modèles doivent évaluer la qualité du texte généré selon de nombreux axes possibles. Pour les systèmes plus simples, une évaluation humaine peut être envisageable, mais dans des systèmes complexes comme les chatbots conversationnels, la quantité de texte généré peut submerger les ressources d'annotation humaine. Les développeurs de modèles ont commencé à s'appuyer fortement sur l'auto-évaluation, où les LLM sont également utilisés pour juger la qualité de la génération. Cependant, les benchmarks existants « LLM comme juge » se concentrent largement sur des tâches simples de questions-réponses qui ne correspondent pas à la complexité des conversations multi-tours. Nous présentons RankJudge, un générateur de benchmark pour évaluer le LLM en tant que juge dans des conversations multi-tours ancrées dans des documents de référence. RankJudge crée des paires de conversations où une conversation présente un défaut unique injecté dans un tour. Cette construction permet d'étiqueter sans ambiguïté les paires de conversations comme meilleures ou moins bonnes, et d'isoler précisément les catégories d'échec à des tours individuels, permettant ainsi un critère de correction conjoint strict pour le jugement. Nous implémentons RankJudge dans les domaines de l'apprentissage automatique, de la biomédecine et de la finance, évaluons 21 juges LLM de pointe, et classons ces juges via le modèle de Bradley-Terry. Notre formulation permet également de classer chaque paire de conversations avec des niveaux de difficulté, que nous utilisons pour organiser dynamiquement la tranche d'évaluation afin de réduire le bruit d'étiquetage, comme confirmé par annotation humaine. Nous constatons que les classements des juges sont stables sous une observabilité partielle, des critères de correction plus grossiers et un algorithme de notation alternatif basé sur une marche aléatoire.

English

As interactive LLM-based applications are created and refined, model developers need to evaluate the quality of generated text along many possible axes. For simpler systems, human evaluation may be practical, but in complicated systems like conversational chatbots, the amount of generated text can overwhelm human annotation resources. Model developers have begun to rely heavily on auto-evaluation, where LLMs are also used to judge generation quality. However, existing LLM-as-a-judge benchmarks largely focus on simple Q\&A tasks that do not match the complexity of multi-turn conversations. We introduce RankJudge, a benchmark generator for evaluating LLM-as-a-judge on multi-turn conversations grounded in reference documents. RankJudge creates pairs of conversations where one conversation has a single flaw injected into one turn. This construction allows paired conversations to be labeled unambiguously as better or worse, and precisely isolates failure categories to individual turns, enabling a strict joint correctness criterion for judging. We implement RankJudge across the domains of machine learning, biomedicine, and finance, evaluate 21 frontier LLM judges, and rank those judges via the Bradley-Terry model. Our formulation also allows ranking each conversation pair with difficulty ratings, which we use to dynamically curate the evaluation slice to reduce label noise, as confirmed via human annotation. We find that judge rankings are stable under partial observability, coarser correctness criteria, and an alternative random-walk rating algorithm.