ChatPaper.aiChatPaper

PandaLM: Un Punto de Referencia Automático para la Evaluación del Ajuste de Instrucciones en Modelos de Lenguaje de Gran Escala

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

June 8, 2023
Autores: Yidong Wang, Zhuohao Yu, Zhengran Zeng, Linyi Yang, Cunxiang Wang, Hao Chen, Chaoya Jiang, Rui Xie, Jindong Wang, Xing Xie, Wei Ye, Shikun Zhang, Yue Zhang
cs.AI

Resumen

El ajuste por instrucción de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) sigue siendo una tarea desafiante, debido a la complejidad de la selección de hiperparámetros y las dificultades involucradas en la evaluación de los modelos ajustados. Para determinar los hiperparámetros óptimos, es esencial contar con un punto de referencia de evaluación automático, robusto y confiable. Sin embargo, establecer dicho punto de referencia no es una tarea trivial debido a los desafíos asociados con la precisión de la evaluación y la protección de la privacidad. En respuesta a estos desafíos, presentamos un modelo de lenguaje grande juez, denominado PandaLM, que está entrenado para distinguir el modelo superior entre varios LLMs. El enfoque de PandaLM va más allá de la corrección objetiva de las respuestas, que es el principal enfoque de los conjuntos de datos de evaluación tradicionales. Aborda factores subjetivos cruciales, como la concisión relativa, la claridad, el cumplimiento de las instrucciones, la exhaustividad y la formalidad. Para garantizar la confiabilidad de PandaLM, recopilamos un conjunto de datos de prueba diverso y anotado por humanos, donde todos los contextos son generados por humanos y las etiquetas están alineadas con las preferencias humanas. Nuestros resultados indican que PandaLM-7B alcanza el 93,75% de la capacidad de evaluación de GPT-3.5 y el 88,28% de GPT-4 en términos de puntuación F1 en nuestro conjunto de datos de prueba. PandaLM permite que la evaluación de LLM sea más justa pero con menos costos, como lo demuestran las mejoras significativas logradas por los modelos ajustados a través de PandaLM en comparación con sus contrapartes entrenadas con los hiperparámetros predeterminados de Alpaca. Además, PandaLM no depende de evaluaciones basadas en API, evitando así posibles fugas de datos. Todos los recursos de PandaLM están disponibles en https://github.com/WeOpenML/PandaLM.
English
Instruction tuning large language models (LLMs) remains a challenging task, owing to the complexity of hyperparameter selection and the difficulty involved in evaluating the tuned models. To determine the optimal hyperparameters, an automatic, robust, and reliable evaluation benchmark is essential. However, establishing such a benchmark is not a trivial task due to the challenges associated with evaluation accuracy and privacy protection. In response to these challenges, we introduce a judge large language model, named PandaLM, which is trained to distinguish the superior model given several LLMs. PandaLM's focus extends beyond just the objective correctness of responses, which is the main focus of traditional evaluation datasets. It addresses vital subjective factors such as relative conciseness, clarity, adherence to instructions, comprehensiveness, and formality. To ensure the reliability of PandaLM, we collect a diverse human-annotated test dataset, where all contexts are generated by humans and labels are aligned with human preferences. Our results indicate that PandaLM-7B achieves 93.75% of GPT-3.5's evaluation ability and 88.28% of GPT-4's in terms of F1-score on our test dataset. PandaLM enables the evaluation of LLM to be fairer but with less cost, evidenced by significant improvements achieved by models tuned through PandaLM compared to their counterparts trained with default Alpaca's hyperparameters. In addition, PandaLM does not depend on API-based evaluations, thus avoiding potential data leakage. All resources of PandaLM are released at https://github.com/WeOpenML/PandaLM.
PDF60December 15, 2024