JudgeLM : Les grands modèles de langage affinés sont des juges évolutifs
JudgeLM: Fine-tuned Large Language Models are Scalable Judges
October 26, 2023
Auteurs: Lianghui Zhu, Xinggang Wang, Xinlong Wang
cs.AI
Résumé
L'évaluation des modèles de langage à grande échelle (LLMs) dans des scénarios ouverts est un défi, car les benchmarks et métriques existants ne permettent pas de les mesurer de manière exhaustive. Pour résoudre ce problème, nous proposons de fine-tuner des LLMs en tant que juges scalables (JudgeLM) afin d'évaluer efficacement et efficacement les LLMs dans des benchmarks ouverts. Nous proposons d'abord un ensemble de données complet, à grande échelle et de haute qualité contenant des amorces de tâches, des réponses générées par des LLMs et des jugements générés par GPT-4 pour le fine-tuning de juges performants, ainsi qu'un nouveau benchmark pour évaluer ces juges. Nous entraînons JudgeLM à différentes échelles, de 7B, 13B à 33B paramètres, et menons une analyse systématique de ses capacités et comportements. Nous analysons ensuite les principaux biais lors du fine-tuning d'un LLM en tant que juge, en les catégorisant comme biais de position, biais de connaissance et biais de format. Pour résoudre ces problèmes, JudgeLM introduit un ensemble de techniques incluant l'augmentation par échange, le support de référence et l'abandon de référence, qui améliorent clairement les performances du juge. JudgeLM obtient des performances de juge de pointe à la fois sur le benchmark existant PandaLM et sur notre nouveau benchmark proposé. Notre JudgeLM est efficace, et le JudgeLM-7B ne nécessite que 3 minutes pour juger 5 000 échantillons avec 8 GPU A100. JudgeLM atteint un accord élevé avec le juge enseignant, dépassant 90 %, ce qui surpasse même l'accord interhumain. JudgeLM démontre également des capacités étendues en tant que juge pour une réponse unique, des modèles multimodaux, des réponses multiples et des conversations multi-tours.
English
Evaluating Large Language Models (LLMs) in open-ended scenarios is
challenging because existing benchmarks and metrics can not measure them
comprehensively. To address this problem, we propose to fine-tune LLMs as
scalable judges (JudgeLM) to evaluate LLMs efficiently and effectively in
open-ended benchmarks. We first propose a comprehensive, large-scale,
high-quality dataset containing task seeds, LLMs-generated answers, and
GPT-4-generated judgments for fine-tuning high-performance judges, as well as a
new benchmark for evaluating the judges. We train JudgeLM at different scales
from 7B, 13B, to 33B parameters, and conduct a systematic analysis of its
capabilities and behaviors. We then analyze the key biases in fine-tuning LLM
as a judge and consider them as position bias, knowledge bias, and format bias.
To address these issues, JudgeLM introduces a bag of techniques including swap
augmentation, reference support, and reference drop, which clearly enhance the
judge's performance. JudgeLM obtains the state-of-the-art judge performance on
both the existing PandaLM benchmark and our proposed new benchmark. Our JudgeLM
is efficient and the JudgeLM-7B only needs 3 minutes to judge 5K samples with 8
A100 GPUs. JudgeLM obtains high agreement with the teacher judge, achieving an
agreement exceeding 90% that even surpasses human-to-human agreement. JudgeLM
also demonstrates extended capabilities in being judges of the single answer,
multimodal models, multiple answers, and multi-turn chat.