INSTRUCTEVAL: Rumo a uma Avaliação Holística de Grandes Modelos de Linguagem Ajustados por Instrução
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models
June 7, 2023
Autores: Yew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria
cs.AI
Resumo
Modelos de linguagem de grande escala ajustados por instruções revolucionaram o processamento de linguagem natural e demonstraram grande potencial em aplicações como agentes conversacionais. Esses modelos, como o GPT-4, não apenas dominam a linguagem, mas também resolvem tarefas complexas em áreas como matemática, programação, medicina e direito. Apesar de suas capacidades impressionantes, ainda há uma falta de compreensão abrangente sobre seu potencial total, principalmente devido à natureza de "caixa preta" de muitos modelos e à ausência de estudos de avaliação holísticos. Para enfrentar esses desafios, apresentamos o INSTRUCTEVAL, uma suíte de avaliação mais abrangente projetada especificamente para modelos de linguagem de grande escala ajustados por instruções. Diferente de trabalhos anteriores, nossa avaliação envolve uma análise rigorosa dos modelos com base na resolução de problemas, capacidade de escrita e alinhamento com valores humanos. Adotamos uma abordagem holística para analisar diversos fatores que afetam o desempenho dos modelos, incluindo a base de pré-treinamento, os dados de ajuste por instruções e os métodos de treinamento. Nossos resultados revelam que a qualidade dos dados de instrução é o fator mais crucial para escalar o desempenho dos modelos. Embora os modelos de código aberto demonstrem habilidades impressionantes de escrita, há um espaço significativo para melhorias na resolução de problemas e no alinhamento. Estamos encorajados pelo rápido desenvolvimento de modelos pela comunidade de código aberto, mas também destacamos a necessidade de avaliações rigorosas para respaldar as afirmações feitas sobre esses modelos. Por meio do INSTRUCTEVAL, buscamos promover uma compreensão mais profunda dos modelos ajustados por instruções e avanços em suas capacidades. O INSTRUCTEVAL está disponível publicamente em https://github.com/declare-lab/instruct-eval.
English
Instruction-tuned large language models have revolutionized natural language
processing and have shown great potential in applications such as
conversational agents. These models, such as GPT-4, can not only master
language but also solve complex tasks in areas like mathematics, coding,
medicine, and law. Despite their impressive capabilities, there is still a lack
of comprehensive understanding regarding their full potential, primarily due to
the black-box nature of many models and the absence of holistic evaluation
studies. To address these challenges, we present INSTRUCTEVAL, a more
comprehensive evaluation suite designed specifically for instruction-tuned
large language models. Unlike previous works, our evaluation involves a
rigorous assessment of models based on problem-solving, writing ability, and
alignment to human values. We take a holistic approach to analyze various
factors affecting model performance, including the pretraining foundation,
instruction-tuning data, and training methods. Our findings reveal that the
quality of instruction data is the most crucial factor in scaling model
performance. While open-source models demonstrate impressive writing abilities,
there is substantial room for improvement in problem-solving and alignment. We
are encouraged by the rapid development of models by the open-source community,
but we also highlight the need for rigorous evaluation to support claims made
about these models. Through INSTRUCTEVAL, we aim to foster a deeper
understanding of instruction-tuned models and advancements in their
capabilities. INSTRUCTEVAL is publicly available at
https://github.com/declare-lab/instruct-eval.