PandaLM: 大規模言語モデルの指示チューニング最適化のための自動評価ベンチマーク
PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization
June 8, 2023
著者: Yidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye, Shikun Zhang, Yue Zhang
cs.AI
要旨
大規模言語モデル(LLM)の指示チューニングは、ハイパーパラメータ選択の複雑さと、チューニングされたモデルを評価する難しさから、依然として困難な課題です。最適なハイパーパラメータを決定するためには、自動的で堅牢かつ信頼性の高い評価ベンチマークが不可欠です。しかし、評価の正確性とプライバシー保護に関連する課題から、そのようなベンチマークを確立することは容易ではありません。これらの課題に対応するため、我々はPandaLMという名の審判用大規模言語モデルを導入しました。PandaLMは、複数のLLMが与えられた場合に優れたモデルを識別するように訓練されています。PandaLMの焦点は、従来の評価データセットが主に注目する回答の客観的な正確性だけでなく、相対的な簡潔さ、明瞭さ、指示への忠実度、包括性、形式性といった重要な主観的要因にも及びます。PandaLMの信頼性を確保するため、我々は多様な人間による注釈付きテストデータセットを収集しました。このデータセットでは、すべてのコンテキストが人間によって生成され、ラベルは人間の嗜好に沿っています。我々の結果は、PandaLM-7Bがテストデータセットにおいて、F1スコアの観点でGPT-3.5の評価能力の93.75%、GPT-4の88.28%を達成することを示しています。PandaLMは、LLMの評価をより公平かつ低コストで可能にし、PandaLMを通じてチューニングされたモデルが、デフォルトのAlpacaのハイパーパラメータで訓練されたモデルと比較して大幅な改善を達成したことで証明されています。さらに、PandaLMはAPIベースの評価に依存しないため、潜在的なデータ漏洩を回避しています。PandaLMのすべてのリソースはhttps://github.com/WeOpenML/PandaLMで公開されています。
English
Instruction tuning large language models (LLMs) remains a challenging task,
owing to the complexity of hyperparameter selection and the difficulty involved
in evaluating the tuned models. To determine the optimal hyperparameters, an
automatic, robust, and reliable evaluation benchmark is essential. However,
establishing such a benchmark is not a trivial task due to the challenges
associated with evaluation accuracy and privacy protection. In response to
these challenges, we introduce a judge large language model, named PandaLM,
which is trained to distinguish the superior model given several LLMs.
PandaLM's focus extends beyond just the objective correctness of responses,
which is the main focus of traditional evaluation datasets. It addresses vital
subjective factors such as relative conciseness, clarity, adherence to
instructions, comprehensiveness, and formality. To ensure the reliability of
PandaLM, we collect a diverse human-annotated test dataset, where all contexts
are generated by humans and labels are aligned with human preferences. Our
results indicate that PandaLM-7B achieves 93.75% of GPT-3.5's evaluation
ability and 88.28% of GPT-4's in terms of F1-score on our test dataset. PandaLM
enables the evaluation of LLM to be fairer but with less cost, evidenced by
significant improvements achieved by models tuned through PandaLM compared to
their counterparts trained with default Alpaca's hyperparameters. In addition,
PandaLM does not depend on API-based evaluations, thus avoiding potential data
leakage. All resources of PandaLM are released at
https://github.com/WeOpenML/PandaLM.