ChatPaper.aiChatPaper

PandaLM: Ein automatischer Evaluationsbenchmark für die Instruktionsoptimierung von LLM

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

June 8, 2023
Autoren: Yidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye, Shikun Zhang, Yue Zhang
cs.AI

Zusammenfassung

Das Instruction Tuning von großen Sprachmodellen (LLMs) bleibt eine anspruchsvolle Aufgabe, bedingt durch die Komplexität der Hyperparameterauswahl und die Schwierigkeiten bei der Bewertung der optimierten Modelle. Um die optimalen Hyperparameter zu bestimmen, ist ein automatischer, robuster und zuverlässiger Evaluierungsbenchmark unerlässlich. Die Einrichtung eines solchen Benchmarks ist jedoch keine triviale Aufgabe, da Herausforderungen in Bezug auf die Bewertungsgenauigkeit und den Datenschutz bestehen. Als Antwort auf diese Herausforderungen stellen wir ein großes Sprachmodell namens PandaLM vor, das darauf trainiert wurde, das überlegene Modell aus mehreren LLMs zu identifizieren. PandaLM konzentriert sich nicht nur auf die objektive Korrektheit der Antworten, was der Hauptfokus traditioneller Evaluierungsdatensätze ist, sondern berücksichtigt auch wichtige subjektive Faktoren wie relative Prägnanz, Klarheit, Befolgung von Anweisungen, Vollständigkeit und Formalität. Um die Zuverlässigkeit von PandaLM zu gewährleisten, haben wir einen vielfältigen, von Menschen annotierten Testdatensatz gesammelt, bei dem alle Kontexte von Menschen generiert und die Labels an menschlichen Präferenzen ausgerichtet sind. Unsere Ergebnisse zeigen, dass PandaLM-7B 93,75 % der Bewertungsfähigkeit von GPT-3.5 und 88,28 % von GPT-4 in Bezug auf den F1-Score in unserem Testdatensatz erreicht. PandaLM ermöglicht eine fairere Bewertung von LLMs bei geringeren Kosten, was durch signifikante Verbesserungen bei Modellen, die durch PandaLM optimiert wurden, im Vergleich zu ihren Gegenstücken, die mit den Standard-Hyperparametern von Alpaca trainiert wurden, belegt wird. Darüber hinaus ist PandaLM nicht auf API-basierte Bewertungen angewiesen und vermeidet somit potenzielle Datenlecks. Alle Ressourcen von PandaLM sind unter https://github.com/WeOpenML/PandaLM veröffentlicht.
English
Instruction tuning large language models (LLMs) remains a challenging task, owing to the complexity of hyperparameter selection and the difficulty involved in evaluating the tuned models. To determine the optimal hyperparameters, an automatic, robust, and reliable evaluation benchmark is essential. However, establishing such a benchmark is not a trivial task due to the challenges associated with evaluation accuracy and privacy protection. In response to these challenges, we introduce a judge large language model, named PandaLM, which is trained to distinguish the superior model given several LLMs. PandaLM's focus extends beyond just the objective correctness of responses, which is the main focus of traditional evaluation datasets. It addresses vital subjective factors such as relative conciseness, clarity, adherence to instructions, comprehensiveness, and formality. To ensure the reliability of PandaLM, we collect a diverse human-annotated test dataset, where all contexts are generated by humans and labels are aligned with human preferences. Our results indicate that PandaLM-7B achieves 93.75% of GPT-3.5's evaluation ability and 88.28% of GPT-4's in terms of F1-score on our test dataset. PandaLM enables the evaluation of LLM to be fairer but with less cost, evidenced by significant improvements achieved by models tuned through PandaLM compared to their counterparts trained with default Alpaca's hyperparameters. In addition, PandaLM does not depend on API-based evaluations, thus avoiding potential data leakage. All resources of PandaLM are released at https://github.com/WeOpenML/PandaLM.
PDF60December 15, 2024