ChatPaper.aiChatPaper

PandaLM: 大規模言語モデルの指示チューニング最適化のための自動評価ベンチマーク

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

June 8, 2023
著者: Yidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye, Shikun Zhang, Yue Zhang
cs.AI

要旨

大規模言語モデル(LLM)の指示チューニングは、ハイパーパラメータ選択の複雑さと、チューニングされたモデルを評価する難しさから、依然として困難な課題です。最適なハイパーパラメータを決定するためには、自動的で堅牢かつ信頼性の高い評価ベンチマークが不可欠です。しかし、評価の正確性とプライバシー保護に関連する課題から、そのようなベンチマークを確立することは容易ではありません。これらの課題に対応するため、我々はPandaLMという名の審判用大規模言語モデルを導入しました。PandaLMは、複数のLLMが与えられた場合に優れたモデルを識別するように訓練されています。PandaLMの焦点は、従来の評価データセットが主に注目する回答の客観的な正確性だけでなく、相対的な簡潔さ、明瞭さ、指示への忠実度、包括性、形式性といった重要な主観的要因にも及びます。PandaLMの信頼性を確保するため、我々は多様な人間による注釈付きテストデータセットを収集しました。このデータセットでは、すべてのコンテキストが人間によって生成され、ラベルは人間の嗜好に沿っています。我々の結果は、PandaLM-7Bがテストデータセットにおいて、F1スコアの観点でGPT-3.5の評価能力の93.75%、GPT-4の88.28%を達成することを示しています。PandaLMは、LLMの評価をより公平かつ低コストで可能にし、PandaLMを通じてチューニングされたモデルが、デフォルトのAlpacaのハイパーパラメータで訓練されたモデルと比較して大幅な改善を達成したことで証明されています。さらに、PandaLMはAPIベースの評価に依存しないため、潜在的なデータ漏洩を回避しています。PandaLMのすべてのリソースはhttps://github.com/WeOpenML/PandaLMで公開されています。
English
Instruction tuning large language models (LLMs) remains a challenging task, owing to the complexity of hyperparameter selection and the difficulty involved in evaluating the tuned models. To determine the optimal hyperparameters, an automatic, robust, and reliable evaluation benchmark is essential. However, establishing such a benchmark is not a trivial task due to the challenges associated with evaluation accuracy and privacy protection. In response to these challenges, we introduce a judge large language model, named PandaLM, which is trained to distinguish the superior model given several LLMs. PandaLM's focus extends beyond just the objective correctness of responses, which is the main focus of traditional evaluation datasets. It addresses vital subjective factors such as relative conciseness, clarity, adherence to instructions, comprehensiveness, and formality. To ensure the reliability of PandaLM, we collect a diverse human-annotated test dataset, where all contexts are generated by humans and labels are aligned with human preferences. Our results indicate that PandaLM-7B achieves 93.75% of GPT-3.5's evaluation ability and 88.28% of GPT-4's in terms of F1-score on our test dataset. PandaLM enables the evaluation of LLM to be fairer but with less cost, evidenced by significant improvements achieved by models tuned through PandaLM compared to their counterparts trained with default Alpaca's hyperparameters. In addition, PandaLM does not depend on API-based evaluations, thus avoiding potential data leakage. All resources of PandaLM are released at https://github.com/WeOpenML/PandaLM.
PDF60December 15, 2024