Benchmarking der Fähigkeiten großer Sprachmodelle für bedingte Generierung

Zusammenfassung

Vortrainierte große Sprachmodelle (Pre-trained Large Language Models, PLMs) bilden die Grundlage für die meisten neuen Entwicklungen in der natürlichen Sprachverarbeitung. Sie haben das Feld von anwendungsspezifischen Modellpipelines hin zu einem einzigen Modell verlagert, das für eine Vielzahl von Aufgaben angepasst wird. Autoregressive PLMs wie GPT-3 oder PaLM haben zusammen mit Techniken wie Few-Shot-Learning zusätzlich die Ausgabemodalität von Klassifikation oder Regression hin zur Generierung verschoben. Trotz ihrer allgegenwärtigen Verwendung wird die Generierungsqualität von Sprachmodellen selten bewertet, wenn diese Modelle eingeführt werden. Zudem ist unklar, inwiefern bestehende Generierungsaufgaben – obwohl sie sich zur groben Systemvergleichbarkeit eignen – mit realen Anwendungsfällen zusammenhängen, für die sie von Nutzern übernommen werden. In dieser Arbeit diskutieren wir, wie bestehende anwendungsspezifische Generierungsbenchmarks an PLMs angepasst werden können, und bieten eine detaillierte, empirische Untersuchung der Grenzen und Fähigkeiten von PLMs in Aufgaben der natürlichen Sprachgenerierung entlang von Dimensionen wie Skalierung, Architektur, Eingabe- und Ausgabesprache. Unsere Ergebnisse zeigen, dass PLMs sich in ihrer Anwendbarkeit auf verschiedene Datenregime und ihrer Generalisierung auf mehrere Sprachen unterscheiden, und geben Aufschluss darüber, welche PLMs für eine bestimmte Generierungsaufgabe verwendet werden sollten. Wir teilen Best Practices, die bei der Bewertung von Generierungsfähigkeiten während der Entwicklung zukünftiger PLMs berücksichtigt werden sollten.

English

Pre-trained large language models (PLMs) underlie most new developments in natural language processing. They have shifted the field from application-specific model pipelines to a single model that is adapted to a wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside techniques like few-shot learning, have additionally shifted the output modality to generation instead of classification or regression. Despite their ubiquitous use, the generation quality of language models is rarely evaluated when these models are introduced. Additionally, it is unclear how existing generation tasks--while they can be used to compare systems at a high level--relate to the real world use cases for which people have been adopting them. In this work, we discuss how to adapt existing application-specific generation benchmarks to PLMs and provide an in-depth, empirical study of the limitations and capabilities of PLMs in natural language generation tasks along dimensions such as scale, architecture, input and output language. Our results show that PLMs differ in their applicability to different data regimes and their generalization to multiple languages and inform which PLMs to use for a given generation task setup. We share best practices to be taken into consideration when benchmarking generation capabilities during the development of upcoming PLMs.

Benchmarking der Fähigkeiten großer Sprachmodelle für bedingte Generierung

Benchmarking Large Language Model Capabilities for Conditional Generation

Zusammenfassung

Support