TinyStories: Wie klein können Sprachmodelle sein und dennoch kohärentes Englisch sprechen?
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
May 12, 2023
Autoren: Ronen Eldan, Yuanzhi Li
cs.AI
Zusammenfassung
Sprachmodelle (LMs) sind leistungsstarke Werkzeuge für die natürliche Sprachverarbeitung, aber sie haben oft Schwierigkeiten, kohärenten und flüssigen Text zu erzeugen, wenn sie klein sind. Modelle mit etwa 125 Millionen Parametern wie GPT-Neo (klein) oder GPT-2 (klein) können selten über einige Worte hinaus kohärenten und konsistenten englischen Text erzeugen, selbst nach umfangreichem Training. Dies wirft die Frage auf, ob die Fähigkeit, kohärenten englischen Text zu produzieren, erst bei größeren Modellen (mit Hunderten von Millionen Parametern oder mehr) und komplexen Architekturen (mit vielen Schichten globaler Aufmerksamkeit) entsteht.
In dieser Arbeit stellen wir TinyStories vor, einen synthetischen Datensatz von Kurzgeschichten, die nur Wörter enthalten, die typischerweise von 3- bis 4-jährigen Kindern verstanden werden, erzeugt von GPT-3.5 und GPT-4. Wir zeigen, dass TinyStories verwendet werden kann, um LMs zu trainieren und zu evaluieren, die viel kleiner sind als die state-of-the-art Modelle (unter 10 Millionen Gesamtparametern) oder viel einfachere Architekturen haben (mit nur einem Transformer-Block), dennoch aber flüssige und konsistente Geschichten mit mehreren Absätzen erzeugen können, die vielfältig sind und nahezu perfekte Grammatik aufweisen, und die Fähigkeit zum logischen Denken demonstrieren.
Wir führen auch ein neues Paradigma für die Bewertung von Sprachmodellen ein: Wir schlagen ein Framework vor, das GPT-4 verwendet, um den von diesen Modellen erzeugten Inhalt zu bewerten, als wären es Geschichten, die von Schülern geschrieben und von einem (menschlichen) Lehrer benotet wurden. Dieses neue Paradigma überwindet die Schwächen standardmäßiger Benchmarks, die oft sehr strukturierte Ausgaben des Modells erfordern, und bietet zudem eine mehrdimensionale Bewertung des Modells, die Punkte für verschiedene Fähigkeiten wie Grammatik, Kreativität und Konsistenz liefert.
Wir hoffen, dass TinyStories die Entwicklung, Analyse und Erforschung von LMs erleichtern kann, insbesondere für ressourcenarme oder spezialisierte Domänen, und Einblicke in die Entstehung von Sprachfähigkeiten in LMs bietet.
English
Language models (LMs) are powerful tools for natural language processing, but
they often struggle to produce coherent and fluent text when they are small.
Models with around 125M parameters such as GPT-Neo (small) or GPT-2 (small) can
rarely generate coherent and consistent English text beyond a few words even
after extensive training. This raises the question of whether the emergence of
the ability to produce coherent English text only occurs at larger scales (with
hundreds of millions of parameters or more) and complex architectures (with
many layers of global attention).
In this work, we introduce TinyStories, a synthetic dataset of short stories
that only contain words that a typical 3 to 4-year-olds usually understand,
generated by GPT-3.5 and GPT-4. We show that TinyStories can be used to train
and evaluate LMs that are much smaller than the state-of-the-art models (below
10 million total parameters), or have much simpler architectures (with only one
transformer block), yet still produce fluent and consistent stories with
several paragraphs that are diverse and have almost perfect grammar, and
demonstrate reasoning capabilities.
We also introduce a new paradigm for the evaluation of language models: We
suggest a framework which uses GPT-4 to grade the content generated by these
models as if those were stories written by students and graded by a (human)
teacher. This new paradigm overcomes the flaws of standard benchmarks which
often requires the model's output to be very structures, and moreover provides
a multidimensional score for the model, providing scores for different
capabilities such as grammar, creativity and consistency.
We hope that TinyStories can facilitate the development, analysis and
research of LMs, especially for low-resource or specialized domains, and shed
light on the emergence of language capabilities in LMs.