INSTRUCTEVAL: Auf dem Weg zu einer ganzheitlichen Bewertung von instruktionsoptimierten großen Sprachmodellen
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models
June 7, 2023
Autoren: Yew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria
cs.AI
Zusammenfassung
Instruktionsoptimierte große Sprachmodelle haben die natürliche Sprachverarbeitung revolutioniert und großes Potenzial in Anwendungen wie Konversationsagenten gezeigt. Diese Modelle, wie GPT-4, beherrschen nicht nur Sprache, sondern können auch komplexe Aufgaben in Bereichen wie Mathematik, Programmierung, Medizin und Recht lösen. Trotz ihrer beeindruckenden Fähigkeiten besteht weiterhin ein Mangel an umfassendem Verständnis ihres vollen Potenzials, hauptsächlich aufgrund der Black-Box-Natur vieler Modelle und des Fehlens ganzheitlicher Evaluierungsstudien. Um diese Herausforderungen zu bewältigen, präsentieren wir INSTRUCTEVAL, eine umfassendere Evaluierungssuite, die speziell für instruktionsoptimierte große Sprachmodelle entwickelt wurde. Im Gegensatz zu früheren Arbeiten umfasst unsere Evaluierung eine rigorose Bewertung der Modelle basierend auf Problemlösungsfähigkeit, Schreibfähigkeit und Ausrichtung an menschlichen Werten. Wir verfolgen einen ganzheitlichen Ansatz, um verschiedene Faktoren zu analysieren, die die Modellleistung beeinflussen, einschließlich der Vorausbildungsgrundlage, der Instruktionsoptimierungsdaten und der Trainingsmethoden. Unsere Ergebnisse zeigen, dass die Qualität der Instruktionsdaten der entscheidendste Faktor für die Skalierung der Modellleistung ist. Während Open-Source-Modelle beeindruckende Schreibfähigkeiten demonstrieren, gibt es erheblichen Verbesserungsbedarf in den Bereichen Problemlösung und Ausrichtung. Wir sind ermutigt durch die rasche Entwicklung von Modellen durch die Open-Source-Community, betonen aber auch die Notwendigkeit einer rigorosen Evaluierung, um die Behauptungen über diese Modelle zu untermauern. Mit INSTRUCTEVAL streben wir ein tieferes Verständnis instruktionsoptimierter Modelle und Fortschritte in ihren Fähigkeiten an. INSTRUCTEVAL ist öffentlich verfügbar unter https://github.com/declare-lab/instruct-eval.
English
Instruction-tuned large language models have revolutionized natural language
processing and have shown great potential in applications such as
conversational agents. These models, such as GPT-4, can not only master
language but also solve complex tasks in areas like mathematics, coding,
medicine, and law. Despite their impressive capabilities, there is still a lack
of comprehensive understanding regarding their full potential, primarily due to
the black-box nature of many models and the absence of holistic evaluation
studies. To address these challenges, we present INSTRUCTEVAL, a more
comprehensive evaluation suite designed specifically for instruction-tuned
large language models. Unlike previous works, our evaluation involves a
rigorous assessment of models based on problem-solving, writing ability, and
alignment to human values. We take a holistic approach to analyze various
factors affecting model performance, including the pretraining foundation,
instruction-tuning data, and training methods. Our findings reveal that the
quality of instruction data is the most crucial factor in scaling model
performance. While open-source models demonstrate impressive writing abilities,
there is substantial room for improvement in problem-solving and alignment. We
are encouraged by the rapid development of models by the open-source community,
but we also highlight the need for rigorous evaluation to support claims made
about these models. Through INSTRUCTEVAL, we aim to foster a deeper
understanding of instruction-tuned models and advancements in their
capabilities. INSTRUCTEVAL is publicly available at
https://github.com/declare-lab/instruct-eval.