JudgeLM:ファインチューニングされた大規模言語モデルはスケーラブルな審判者である
JudgeLM: Fine-tuned Large Language Models are Scalable Judges
October 26, 2023
著者: Lianghui Zhu, Xinggang Wang, Xinlong Wang
cs.AI
要旨
大規模言語モデル(LLM)をオープンエンドなシナリオで評価することは、既存のベンチマークやメトリクスでは包括的に測定できないため、困難な課題です。この問題に対処するため、我々はLLMをスケーラブルな審判(JudgeLM)としてファインチューニングし、オープンエンドなベンチマークで効率的かつ効果的にLLMを評価することを提案します。まず、高性能な審判をファインチューニングするための包括的で大規模かつ高品質なデータセットを提案します。このデータセットには、タスクのシード、LLMが生成した回答、およびGPT-4が生成した判定が含まれています。また、審判を評価するための新しいベンチマークも提案します。我々は7B、13B、33Bパラメータの異なるスケールでJudgeLMをトレーニングし、その能力と挙動を体系的に分析します。次に、LLMを審判としてファインチューニングする際の主要なバイアスを分析し、それらを位置バイアス、知識バイアス、フォーマットバイアスとして考慮します。これらの問題に対処するため、JudgeLMはスワップ拡張、リファレンスサポート、リファレンスドロップなどの技術を導入し、審判の性能を明確に向上させます。JudgeLMは、既存のPandaLMベンチマークと我々が提案した新しいベンチマークの両方で、最先端の審判性能を達成します。我々のJudgeLMは効率的であり、JudgeLM-7Bは8つのA100 GPUを使用して5Kサンプルを判定するのにわずか3分しかかかりません。JudgeLMは教師審判との高い一致率を達成し、90%を超える一致率を実現し、人間同士の一致率さえも上回ります。また、JudgeLMは単一回答、マルチモーダルモデル、複数回答、およびマルチターンチャットの審判としての拡張能力も示しています。
English
Evaluating Large Language Models (LLMs) in open-ended scenarios is
challenging because existing benchmarks and metrics can not measure them
comprehensively. To address this problem, we propose to fine-tune LLMs as
scalable judges (JudgeLM) to evaluate LLMs efficiently and effectively in
open-ended benchmarks. We first propose a comprehensive, large-scale,
high-quality dataset containing task seeds, LLMs-generated answers, and
GPT-4-generated judgments for fine-tuning high-performance judges, as well as a
new benchmark for evaluating the judges. We train JudgeLM at different scales
from 7B, 13B, to 33B parameters, and conduct a systematic analysis of its
capabilities and behaviors. We then analyze the key biases in fine-tuning LLM
as a judge and consider them as position bias, knowledge bias, and format bias.
To address these issues, JudgeLM introduces a bag of techniques including swap
augmentation, reference support, and reference drop, which clearly enhance the
judge's performance. JudgeLM obtains the state-of-the-art judge performance on
both the existing PandaLM benchmark and our proposed new benchmark. Our JudgeLM
is efficient and the JudgeLM-7B only needs 3 minutes to judge 5K samples with 8
A100 GPUs. JudgeLM obtains high agreement with the teacher judge, achieving an
agreement exceeding 90% that even surpasses human-to-human agreement. JudgeLM
also demonstrates extended capabilities in being judges of the single answer,
multimodal models, multiple answers, and multi-turn chat.