Évaluation des Capacités des Grands Modèles de Langage pour la Génération Conditionnelle
Benchmarking Large Language Model Capabilities for Conditional Generation
June 29, 2023
Auteurs: Joshua Maynez, Priyanka Agrawal, Sebastian Gehrmann
cs.AI
Résumé
Les grands modèles de langage pré-entraînés (PLMs) constituent la base de la plupart des nouvelles avancées en traitement du langage naturel. Ils ont transformé le domaine en passant de pipelines de modèles spécifiques à des applications à un modèle unique adapté à une large gamme de tâches. Les PLMs autorégressifs comme GPT-3 ou PaLM, ainsi que des techniques telles que l'apprentissage en few-shot, ont en outre modifié la modalité de sortie vers la génération plutôt que la classification ou la régression. Malgré leur utilisation omniprésente, la qualité de génération des modèles de langage est rarement évaluée lors de leur introduction. De plus, il n'est pas clair comment les tâches de génération existantes—bien qu'elles puissent être utilisées pour comparer les systèmes à un niveau élevé—se rapportent aux cas d'utilisation réels pour lesquels les gens les adoptent. Dans ce travail, nous discutons de la manière d'adapter les benchmarks de génération spécifiques à des applications existantes aux PLMs et fournissons une étude empirique approfondie des limites et des capacités des PLMs dans les tâches de génération de langage naturel, en examinant des dimensions telles que l'échelle, l'architecture, et les langues d'entrée et de sortie. Nos résultats montrent que les PLMs diffèrent dans leur applicabilité à différents régimes de données et leur généralisation à plusieurs langues, et informent sur les PLMs à utiliser pour une configuration donnée de tâche de génération. Nous partageons les meilleures pratiques à prendre en compte lors de l'évaluation des capacités de génération pendant le développement des futurs PLMs.
English
Pre-trained large language models (PLMs) underlie most new developments in
natural language processing. They have shifted the field from
application-specific model pipelines to a single model that is adapted to a
wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside
techniques like few-shot learning, have additionally shifted the output
modality to generation instead of classification or regression. Despite their
ubiquitous use, the generation quality of language models is rarely evaluated
when these models are introduced. Additionally, it is unclear how existing
generation tasks--while they can be used to compare systems at a high
level--relate to the real world use cases for which people have been adopting
them. In this work, we discuss how to adapt existing application-specific
generation benchmarks to PLMs and provide an in-depth, empirical study of the
limitations and capabilities of PLMs in natural language generation tasks along
dimensions such as scale, architecture, input and output language. Our results
show that PLMs differ in their applicability to different data regimes and
their generalization to multiple languages and inform which PLMs to use for a
given generation task setup. We share best practices to be taken into
consideration when benchmarking generation capabilities during the development
of upcoming PLMs.