Avaliação das Capacidades de Modelos de Linguagem de Grande Escala para Geração Condicional
Benchmarking Large Language Model Capabilities for Conditional Generation
June 29, 2023
Autores: Joshua Maynez, Priyanka Agrawal, Sebastian Gehrmann
cs.AI
Resumo
Modelos de linguagem pré-treinados de grande escala (PLMs, na sigla em inglês) são a base da maioria dos novos avanços em processamento de linguagem natural. Eles mudaram o foco do campo, que antes era voltado para pipelines de modelos específicos para cada aplicação, para um único modelo que pode ser adaptado a uma ampla gama de tarefas. PLMs autoregressivos, como GPT-3 ou PaLM, juntamente com técnicas como aprendizado com poucos exemplos (few-shot learning), também mudaram a modalidade de saída para geração, em vez de classificação ou regressão. Apesar de seu uso generalizado, a qualidade de geração dos modelos de linguagem raramente é avaliada quando esses modelos são introduzidos. Além disso, não está claro como as tarefas de geração existentes—embora possam ser usadas para comparar sistemas em um nível alto—se relacionam com os casos de uso do mundo real para os quais as pessoas têm adotado esses modelos. Neste trabalho, discutimos como adaptar benchmarks de geração específicos para aplicações aos PLMs e fornecemos um estudo empírico detalhado das limitações e capacidades dos PLMs em tarefas de geração de linguagem natural, considerando dimensões como escala, arquitetura, idioma de entrada e saída. Nossos resultados mostram que os PLMs diferem em sua aplicabilidade a diferentes regimes de dados e em sua generalização para múltiplos idiomas, e indicam quais PLMs devem ser usados para uma determinada configuração de tarefa de geração. Compartilhamos práticas recomendadas que devem ser consideradas ao avaliar capacidades de geração durante o desenvolvimento de futuros PLMs.
English
Pre-trained large language models (PLMs) underlie most new developments in
natural language processing. They have shifted the field from
application-specific model pipelines to a single model that is adapted to a
wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside
techniques like few-shot learning, have additionally shifted the output
modality to generation instead of classification or regression. Despite their
ubiquitous use, the generation quality of language models is rarely evaluated
when these models are introduced. Additionally, it is unclear how existing
generation tasks--while they can be used to compare systems at a high
level--relate to the real world use cases for which people have been adopting
them. In this work, we discuss how to adapt existing application-specific
generation benchmarks to PLMs and provide an in-depth, empirical study of the
limitations and capabilities of PLMs in natural language generation tasks along
dimensions such as scale, architecture, input and output language. Our results
show that PLMs differ in their applicability to different data regimes and
their generalization to multiple languages and inform which PLMs to use for a
given generation task setup. We share best practices to be taken into
consideration when benchmarking generation capabilities during the development
of upcoming PLMs.