Benchmarken van de mogelijkheden van grote taalmodellen voor conditionele generatie

Samenvatting

Voorgetrainde grote taalmodellen (PLMs) vormen de basis van de meeste nieuwe ontwikkelingen in natuurlijke taalverwerking. Ze hebben het veld verschoven van toepassingsspecifieke modelpijplijnen naar een enkel model dat is aangepast aan een breed scala aan taken. Autoregressieve PLMs zoals GPT-3 of PaLM, samen met technieken zoals few-shot learning, hebben bovendien de uitvoermodaliteit verlegd naar generatie in plaats van classificatie of regressie. Ondanks hun alomtegenwoordige gebruik wordt de generatiekwaliteit van taalmodellen zelden geëvalueerd wanneer deze modellen worden geïntroduceerd. Daarnaast is het onduidelijk hoe bestaande generatietaken—hoewel ze kunnen worden gebruikt om systemen op hoog niveau te vergelijken—verband houden met de real-world use cases waarvoor mensen ze hebben geadopteerd. In dit werk bespreken we hoe bestaande toepassingsspecifieke generatiebenchmarks kunnen worden aangepast aan PLMs en bieden we een diepgaande, empirische studie van de beperkingen en mogelijkheden van PLMs in natuurlijke taalgeneratietaken, langs dimensies zoals schaal, architectuur, invoer- en uitvoertaal. Onze resultaten tonen aan dat PLMs verschillen in hun toepasbaarheid op verschillende dataregimes en hun generalisatie naar meerdere talen, en geven aan welke PLMs gebruikt moeten worden voor een gegeven generatietaakopstelling. We delen best practices die in overweging moeten worden genomen bij het benchmarken van generatiecapaciteiten tijdens de ontwikkeling van toekomstige PLMs.

English

Pre-trained large language models (PLMs) underlie most new developments in natural language processing. They have shifted the field from application-specific model pipelines to a single model that is adapted to a wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside techniques like few-shot learning, have additionally shifted the output modality to generation instead of classification or regression. Despite their ubiquitous use, the generation quality of language models is rarely evaluated when these models are introduced. Additionally, it is unclear how existing generation tasks--while they can be used to compare systems at a high level--relate to the real world use cases for which people have been adopting them. In this work, we discuss how to adapt existing application-specific generation benchmarks to PLMs and provide an in-depth, empirical study of the limitations and capabilities of PLMs in natural language generation tasks along dimensions such as scale, architecture, input and output language. Our results show that PLMs differ in their applicability to different data regimes and their generalization to multiple languages and inform which PLMs to use for a given generation task setup. We share best practices to be taken into consideration when benchmarking generation capabilities during the development of upcoming PLMs.

Benchmarken van de mogelijkheden van grote taalmodellen voor conditionele generatie

Benchmarking Large Language Model Capabilities for Conditional Generation

Samenvatting

Support