Evaluación de las Capacidades de los Modelos de Lenguaje de Gran Escala para la Generación Condicional

Resumen

Los modelos de lenguaje preentrenados a gran escala (PLMs, por sus siglas en inglés) son la base de la mayoría de los avances recientes en el procesamiento del lenguaje natural. Han transformado el campo, pasando de pipelines de modelos específicos para cada aplicación a un único modelo que se adapta a una amplia gama de tareas. Los PLMs autoregresivos como GPT-3 o PaLM, junto con técnicas como el aprendizaje con pocos ejemplos (few-shot learning), han cambiado además la modalidad de salida hacia la generación en lugar de la clasificación o la regresión. A pesar de su uso generalizado, la calidad de la generación de los modelos de lenguaje rara vez se evalúa cuando estos modelos se presentan. Además, no está claro cómo las tareas de generación existentes—aunque pueden usarse para comparar sistemas a un nivel general—se relacionan con los casos de uso del mundo real para los cuales las personas los han adoptado. En este trabajo, discutimos cómo adaptar los puntos de referencia (benchmarks) de generación específicos para aplicaciones a los PLMs y proporcionamos un estudio empírico detallado de las limitaciones y capacidades de los PLMs en tareas de generación de lenguaje natural, considerando dimensiones como la escala, la arquitectura, y los idiomas de entrada y salida. Nuestros resultados muestran que los PLMs difieren en su aplicabilidad a diferentes regímenes de datos y en su generalización a múltiples idiomas, lo que informa sobre qué PLMs usar para una configuración dada de tareas de generación. Compartimos mejores prácticas que deben tenerse en cuenta al evaluar las capacidades de generación durante el desarrollo de futuros PLMs.

English

Pre-trained large language models (PLMs) underlie most new developments in natural language processing. They have shifted the field from application-specific model pipelines to a single model that is adapted to a wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside techniques like few-shot learning, have additionally shifted the output modality to generation instead of classification or regression. Despite their ubiquitous use, the generation quality of language models is rarely evaluated when these models are introduced. Additionally, it is unclear how existing generation tasks--while they can be used to compare systems at a high level--relate to the real world use cases for which people have been adopting them. In this work, we discuss how to adapt existing application-specific generation benchmarks to PLMs and provide an in-depth, empirical study of the limitations and capabilities of PLMs in natural language generation tasks along dimensions such as scale, architecture, input and output language. Our results show that PLMs differ in their applicability to different data regimes and their generalization to multiple languages and inform which PLMs to use for a given generation task setup. We share best practices to be taken into consideration when benchmarking generation capabilities during the development of upcoming PLMs.

Evaluación de las Capacidades de los Modelos de Lenguaje de Gran Escala para la Generación Condicional

Benchmarking Large Language Model Capabilities for Conditional Generation

Resumen

Support