Benchmarking der Fähigkeiten großer Sprachmodelle für bedingte Generierung
Benchmarking Large Language Model Capabilities for Conditional Generation
June 29, 2023
Autoren: Joshua Maynez, Priyanka Agrawal, Sebastian Gehrmann
cs.AI
Zusammenfassung
Vortrainierte große Sprachmodelle (Pre-trained Large Language Models, PLMs) bilden die Grundlage für die meisten neuen Entwicklungen in der natürlichen Sprachverarbeitung. Sie haben das Feld von anwendungsspezifischen Modellpipelines hin zu einem einzigen Modell verlagert, das für eine Vielzahl von Aufgaben angepasst wird. Autoregressive PLMs wie GPT-3 oder PaLM haben zusammen mit Techniken wie Few-Shot-Learning zusätzlich die Ausgabemodalität von Klassifikation oder Regression hin zur Generierung verschoben. Trotz ihrer allgegenwärtigen Verwendung wird die Generierungsqualität von Sprachmodellen selten bewertet, wenn diese Modelle eingeführt werden. Zudem ist unklar, inwiefern bestehende Generierungsaufgaben – obwohl sie sich zur groben Systemvergleichbarkeit eignen – mit realen Anwendungsfällen zusammenhängen, für die sie von Nutzern übernommen werden. In dieser Arbeit diskutieren wir, wie bestehende anwendungsspezifische Generierungsbenchmarks an PLMs angepasst werden können, und bieten eine detaillierte, empirische Untersuchung der Grenzen und Fähigkeiten von PLMs in Aufgaben der natürlichen Sprachgenerierung entlang von Dimensionen wie Skalierung, Architektur, Eingabe- und Ausgabesprache. Unsere Ergebnisse zeigen, dass PLMs sich in ihrer Anwendbarkeit auf verschiedene Datenregime und ihrer Generalisierung auf mehrere Sprachen unterscheiden, und geben Aufschluss darüber, welche PLMs für eine bestimmte Generierungsaufgabe verwendet werden sollten. Wir teilen Best Practices, die bei der Bewertung von Generierungsfähigkeiten während der Entwicklung zukünftiger PLMs berücksichtigt werden sollten.
English
Pre-trained large language models (PLMs) underlie most new developments in
natural language processing. They have shifted the field from
application-specific model pipelines to a single model that is adapted to a
wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside
techniques like few-shot learning, have additionally shifted the output
modality to generation instead of classification or regression. Despite their
ubiquitous use, the generation quality of language models is rarely evaluated
when these models are introduced. Additionally, it is unclear how existing
generation tasks--while they can be used to compare systems at a high
level--relate to the real world use cases for which people have been adopting
them. In this work, we discuss how to adapt existing application-specific
generation benchmarks to PLMs and provide an in-depth, empirical study of the
limitations and capabilities of PLMs in natural language generation tasks along
dimensions such as scale, architecture, input and output language. Our results
show that PLMs differ in their applicability to different data regimes and
their generalization to multiple languages and inform which PLMs to use for a
given generation task setup. We share best practices to be taken into
consideration when benchmarking generation capabilities during the development
of upcoming PLMs.