PandaLM: 대규모 언어 모델 지시 튜닝 최적화를 위한 자동 평가 벤치마크
PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization
June 8, 2023
저자: Yidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye, Shikun Zhang, Yue Zhang
cs.AI
초록
대규모 언어 모델(LLM)의 명령어 튜닝은 하이퍼파라미터 선택의 복잡성과 튜닝된 모델 평가의 어려움으로 인해 여전히 도전적인 과제로 남아 있습니다. 최적의 하이퍼파라미터를 결정하기 위해서는 자동적이고 견고하며 신뢰할 수 있는 평가 벤치마크가 필수적입니다. 그러나 평가 정확성과 개인정보 보호와 관련된 문제로 인해 이러한 벤치마크를 구축하는 것은 간단한 작업이 아닙니다. 이러한 문제에 대응하기 위해, 우리는 여러 LLM 중에서 우수한 모델을 구별하도록 훈련된 판단 대규모 언어 모델인 PandaLM을 소개합니다. PandaLM은 전통적인 평가 데이터셋의 주요 초점인 응답의 객관적 정확성뿐만 아니라 상대적 간결성, 명확성, 명령어 준수, 포괄성, 형식성과 같은 중요한 주관적 요소도 다룹니다. PandaLM의 신뢰성을 보장하기 위해, 우리는 다양한 인간 주석 테스트 데이터셋을 수집하였으며, 모든 문맥은 인간이 생성하고 레이블은 인간의 선호도와 일치하도록 설정했습니다. 우리의 결과에 따르면, PandaLM-7B는 테스트 데이터셋에서 GPT-3.5의 평가 능력의 93.75%, GPT-4의 F1 점수의 88.28%를 달성했습니다. PandaLM은 LLM 평가를 더 공정하게 하면서도 비용을 절감할 수 있게 해주며, PandaLM을 통해 튜닝된 모델들이 기본 Alpaca 하이퍼파라미터로 훈련된 모델들에 비해 상당한 개선을 보인 것으로 입증되었습니다. 또한, PandaLM은 API 기반 평가에 의존하지 않아 잠재적인 데이터 유출을 방지합니다. PandaLM의 모든 리소스는 https://github.com/WeOpenML/PandaLM에서 공개되었습니다.
English
Instruction tuning large language models (LLMs) remains a challenging task,
owing to the complexity of hyperparameter selection and the difficulty involved
in evaluating the tuned models. To determine the optimal hyperparameters, an
automatic, robust, and reliable evaluation benchmark is essential. However,
establishing such a benchmark is not a trivial task due to the challenges
associated with evaluation accuracy and privacy protection. In response to
these challenges, we introduce a judge large language model, named PandaLM,
which is trained to distinguish the superior model given several LLMs.
PandaLM's focus extends beyond just the objective correctness of responses,
which is the main focus of traditional evaluation datasets. It addresses vital
subjective factors such as relative conciseness, clarity, adherence to
instructions, comprehensiveness, and formality. To ensure the reliability of
PandaLM, we collect a diverse human-annotated test dataset, where all contexts
are generated by humans and labels are aligned with human preferences. Our
results indicate that PandaLM-7B achieves 93.75% of GPT-3.5's evaluation
ability and 88.28% of GPT-4's in terms of F1-score on our test dataset. PandaLM
enables the evaluation of LLM to be fairer but with less cost, evidenced by
significant improvements achieved by models tuned through PandaLM compared to
their counterparts trained with default Alpaca's hyperparameters. In addition,
PandaLM does not depend on API-based evaluations, thus avoiding potential data
leakage. All resources of PandaLM are released at
https://github.com/WeOpenML/PandaLM.