INSTRUCTEVAL : Vers une évaluation holistique des grands modèles de langage ajustés par instruction
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models
June 7, 2023
Auteurs: Yew Ken Chia, Pengfei Hong, Lidong Bing, Soujanya Poria
cs.AI
Résumé
Les grands modèles de langage ajustés par instruction ont révolutionné le traitement du langage naturel et ont démontré un potentiel considérable dans des applications telles que les agents conversationnels. Ces modèles, comme GPT-4, sont capables non seulement de maîtriser le langage, mais aussi de résoudre des tâches complexes dans des domaines tels que les mathématiques, la programmation, la médecine et le droit. Malgré leurs capacités impressionnantes, il existe encore un manque de compréhension globale de leur plein potentiel, principalement en raison de la nature de boîte noire de nombreux modèles et de l'absence d'études d'évaluation holistiques. Pour relever ces défis, nous présentons INSTRUCTEVAL, une suite d'évaluation plus complète conçue spécifiquement pour les grands modèles de langage ajustés par instruction. Contrairement aux travaux précédents, notre évaluation implique une évaluation rigoureuse des modèles basée sur la résolution de problèmes, la capacité rédactionnelle et l'alignement aux valeurs humaines. Nous adoptons une approche holistique pour analyser divers facteurs affectant la performance des modèles, y compris la base de pré-entraînement, les données d'ajustement par instruction et les méthodes d'entraînement. Nos résultats révèlent que la qualité des données d'instruction est le facteur le plus crucial pour améliorer la performance des modèles. Bien que les modèles open source démontrent des capacités rédactionnelles impressionnantes, il existe une marge d'amélioration substantielle dans la résolution de problèmes et l'alignement. Nous sommes encouragés par le développement rapide des modèles par la communauté open source, mais nous soulignons également la nécessité d'une évaluation rigoureuse pour étayer les affirmations faites à propos de ces modèles. À travers INSTRUCTEVAL, nous visons à favoriser une compréhension plus approfondie des modèles ajustés par instruction et des avancées dans leurs capacités. INSTRUCTEVAL est disponible publiquement à l'adresse https://github.com/declare-lab/instruct-eval.
English
Instruction-tuned large language models have revolutionized natural language
processing and have shown great potential in applications such as
conversational agents. These models, such as GPT-4, can not only master
language but also solve complex tasks in areas like mathematics, coding,
medicine, and law. Despite their impressive capabilities, there is still a lack
of comprehensive understanding regarding their full potential, primarily due to
the black-box nature of many models and the absence of holistic evaluation
studies. To address these challenges, we present INSTRUCTEVAL, a more
comprehensive evaluation suite designed specifically for instruction-tuned
large language models. Unlike previous works, our evaluation involves a
rigorous assessment of models based on problem-solving, writing ability, and
alignment to human values. We take a holistic approach to analyze various
factors affecting model performance, including the pretraining foundation,
instruction-tuning data, and training methods. Our findings reveal that the
quality of instruction data is the most crucial factor in scaling model
performance. While open-source models demonstrate impressive writing abilities,
there is substantial room for improvement in problem-solving and alignment. We
are encouraged by the rapid development of models by the open-source community,
but we also highlight the need for rigorous evaluation to support claims made
about these models. Through INSTRUCTEVAL, we aim to foster a deeper
understanding of instruction-tuned models and advancements in their
capabilities. INSTRUCTEVAL is publicly available at
https://github.com/declare-lab/instruct-eval.