Avaliação das Capacidades de Modelos de Linguagem de Grande Escala para Geração Condicional

Resumo

Modelos de linguagem pré-treinados de grande escala (PLMs, na sigla em inglês) são a base da maioria dos novos avanços em processamento de linguagem natural. Eles mudaram o foco do campo, que antes era voltado para pipelines de modelos específicos para cada aplicação, para um único modelo que pode ser adaptado a uma ampla gama de tarefas. PLMs autoregressivos, como GPT-3 ou PaLM, juntamente com técnicas como aprendizado com poucos exemplos (few-shot learning), também mudaram a modalidade de saída para geração, em vez de classificação ou regressão. Apesar de seu uso generalizado, a qualidade de geração dos modelos de linguagem raramente é avaliada quando esses modelos são introduzidos. Além disso, não está claro como as tarefas de geração existentes—embora possam ser usadas para comparar sistemas em um nível alto—se relacionam com os casos de uso do mundo real para os quais as pessoas têm adotado esses modelos. Neste trabalho, discutimos como adaptar benchmarks de geração específicos para aplicações aos PLMs e fornecemos um estudo empírico detalhado das limitações e capacidades dos PLMs em tarefas de geração de linguagem natural, considerando dimensões como escala, arquitetura, idioma de entrada e saída. Nossos resultados mostram que os PLMs diferem em sua aplicabilidade a diferentes regimes de dados e em sua generalização para múltiplos idiomas, e indicam quais PLMs devem ser usados para uma determinada configuração de tarefa de geração. Compartilhamos práticas recomendadas que devem ser consideradas ao avaliar capacidades de geração durante o desenvolvimento de futuros PLMs.

English

Pre-trained large language models (PLMs) underlie most new developments in natural language processing. They have shifted the field from application-specific model pipelines to a single model that is adapted to a wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside techniques like few-shot learning, have additionally shifted the output modality to generation instead of classification or regression. Despite their ubiquitous use, the generation quality of language models is rarely evaluated when these models are introduced. Additionally, it is unclear how existing generation tasks--while they can be used to compare systems at a high level--relate to the real world use cases for which people have been adopting them. In this work, we discuss how to adapt existing application-specific generation benchmarks to PLMs and provide an in-depth, empirical study of the limitations and capabilities of PLMs in natural language generation tasks along dimensions such as scale, architecture, input and output language. Our results show that PLMs differ in their applicability to different data regimes and their generalization to multiple languages and inform which PLMs to use for a given generation task setup. We share best practices to be taken into consideration when benchmarking generation capabilities during the development of upcoming PLMs.

Avaliação das Capacidades de Modelos de Linguagem de Grande Escala para Geração Condicional

Benchmarking Large Language Model Capabilities for Conditional Generation

Resumo

Support