Valutazione delle Capacità dei Modelli Linguistici di Grandi Dimensioni per la Generazione Condizionata

Abstract

I modelli linguistici pre-addestrati su larga scala (PLM) sono alla base della maggior parte dei nuovi sviluppi nell'elaborazione del linguaggio naturale. Hanno spostato il campo da pipeline di modelli specifici per applicazioni a un singolo modello adattabile a un'ampia gamma di compiti. PLM autoregressivi come GPT-3 o PaLM, insieme a tecniche come l'apprendimento few-shot, hanno ulteriormente spostato la modalità di output verso la generazione invece della classificazione o regressione. Nonostante il loro uso ubiquitario, la qualità della generazione dei modelli linguistici viene raramente valutata quando questi modelli vengono introdotti. Inoltre, non è chiaro come i compiti di generazione esistenti—sebbene possano essere utilizzati per confrontare i sistemi a un livello elevato—siano correlati ai casi d'uso reali per i quali le persone li stanno adottando. In questo lavoro, discutiamo come adattare i benchmark di generazione specifici per applicazioni esistenti ai PLM e forniamo uno studio empirico approfondito delle limitazioni e delle capacità dei PLM nei compiti di generazione del linguaggio naturale lungo dimensioni come scala, architettura, linguaggio di input e output. I nostri risultati mostrano che i PLM differiscono nella loro applicabilità a diversi regimi di dati e nella loro generalizzazione a più lingue, e informano su quali PLM utilizzare per una determinata configurazione di compito di generazione. Condividiamo le migliori pratiche da considerare durante la valutazione delle capacità di generazione nello sviluppo dei futuri PLM.

English

Pre-trained large language models (PLMs) underlie most new developments in natural language processing. They have shifted the field from application-specific model pipelines to a single model that is adapted to a wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside techniques like few-shot learning, have additionally shifted the output modality to generation instead of classification or regression. Despite their ubiquitous use, the generation quality of language models is rarely evaluated when these models are introduced. Additionally, it is unclear how existing generation tasks--while they can be used to compare systems at a high level--relate to the real world use cases for which people have been adopting them. In this work, we discuss how to adapt existing application-specific generation benchmarks to PLMs and provide an in-depth, empirical study of the limitations and capabilities of PLMs in natural language generation tasks along dimensions such as scale, architecture, input and output language. Our results show that PLMs differ in their applicability to different data regimes and their generalization to multiple languages and inform which PLMs to use for a given generation task setup. We share best practices to be taken into consideration when benchmarking generation capabilities during the development of upcoming PLMs.

Valutazione delle Capacità dei Modelli Linguistici di Grandi Dimensioni per la Generazione Condizionata

Benchmarking Large Language Model Capabilities for Conditional Generation

Abstract

Support