INSTRUCTEVAL: Hacia una Evaluación Integral de Modelos de Lenguaje a Gran Escala Ajustados por Instrucciones
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models
June 7, 2023
Autores: Yew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria
cs.AI
Resumen
Los modelos de lenguaje grande ajustados por instrucciones han revolucionado el procesamiento del lenguaje natural y han demostrado un gran potencial en aplicaciones como los agentes conversacionales. Estos modelos, como GPT-4, no solo dominan el lenguaje, sino que también resuelven tareas complejas en áreas como matemáticas, programación, medicina y derecho. A pesar de sus impresionantes capacidades, aún falta una comprensión integral de su potencial total, principalmente debido a la naturaleza de caja negra de muchos modelos y la ausencia de estudios de evaluación holísticos. Para abordar estos desafíos, presentamos INSTRUCTEVAL, una suite de evaluación más completa diseñada específicamente para modelos de lenguaje grande ajustados por instrucciones. A diferencia de trabajos anteriores, nuestra evaluación implica una valoración rigurosa de los modelos basada en la resolución de problemas, la capacidad de escritura y la alineación con los valores humanos. Adoptamos un enfoque holístico para analizar diversos factores que afectan el rendimiento del modelo, incluyendo la base de preentrenamiento, los datos de ajuste por instrucciones y los métodos de entrenamiento. Nuestros hallazgos revelan que la calidad de los datos de instrucción es el factor más crucial para escalar el rendimiento del modelo. Si bien los modelos de código abierto demuestran habilidades impresionantes en escritura, hay un margen sustancial de mejora en la resolución de problemas y la alineación. Nos alienta el rápido desarrollo de modelos por parte de la comunidad de código abierto, pero también destacamos la necesidad de una evaluación rigurosa para respaldar las afirmaciones hechas sobre estos modelos. A través de INSTRUCTEVAL, buscamos fomentar una comprensión más profunda de los modelos ajustados por instrucciones y avances en sus capacidades. INSTRUCTEVAL está disponible públicamente en https://github.com/declare-lab/instruct-eval.
English
Instruction-tuned large language models have revolutionized natural language
processing and have shown great potential in applications such as
conversational agents. These models, such as GPT-4, can not only master
language but also solve complex tasks in areas like mathematics, coding,
medicine, and law. Despite their impressive capabilities, there is still a lack
of comprehensive understanding regarding their full potential, primarily due to
the black-box nature of many models and the absence of holistic evaluation
studies. To address these challenges, we present INSTRUCTEVAL, a more
comprehensive evaluation suite designed specifically for instruction-tuned
large language models. Unlike previous works, our evaluation involves a
rigorous assessment of models based on problem-solving, writing ability, and
alignment to human values. We take a holistic approach to analyze various
factors affecting model performance, including the pretraining foundation,
instruction-tuning data, and training methods. Our findings reveal that the
quality of instruction data is the most crucial factor in scaling model
performance. While open-source models demonstrate impressive writing abilities,
there is substantial room for improvement in problem-solving and alignment. We
are encouraged by the rapid development of models by the open-source community,
but we also highlight the need for rigorous evaluation to support claims made
about these models. Through INSTRUCTEVAL, we aim to foster a deeper
understanding of instruction-tuned models and advancements in their
capabilities. INSTRUCTEVAL is publicly available at
https://github.com/declare-lab/instruct-eval.