TinyStories: Hoe klein kunnen taalmodelen zijn en toch coherent Engels spreken?
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
May 12, 2023
Auteurs: Ronen Eldan, Yuanzhi Li
cs.AI
Samenvatting
Taalmodellen (LMs) zijn krachtige hulpmiddelen voor natuurlijke taalverwerking, maar ze hebben vaak moeite om samenhangende en vloeiende tekst te produceren wanneer ze klein zijn. Modellen met ongeveer 125M parameters, zoals GPT-Neo (klein) of GPT-2 (klein), kunnen zelden coherente en consistente Engelse tekst genereren die verder gaat dan een paar woorden, zelfs na uitgebreide training. Dit roept de vraag op of het vermogen om coherente Engelse tekst te produceren alleen ontstaat bij grotere schalen (met honderden miljoenen parameters of meer) en complexe architecturen (met veel lagen van globale aandacht).
In dit werk introduceren we TinyStories, een synthetische dataset van korte verhalen die alleen woorden bevatten die een typisch 3- tot 4-jarige meestal begrijpt, gegenereerd door GPT-3.5 en GPT-4. We laten zien dat TinyStories kan worden gebruikt om LMs te trainen en te evalueren die veel kleiner zijn dan de state-of-the-art modellen (minder dan 10 miljoen parameters in totaal), of veel eenvoudigere architecturen hebben (met slechts één transformerblok), maar toch vloeiende en consistente verhalen produceren met meerdere alinea’s die divers zijn en bijna perfecte grammatica hebben, en redeneervaardigheden demonstreren.
We introduceren ook een nieuw paradigma voor de evaluatie van taalmodellen: we stellen een raamwerk voor dat GPT-4 gebruikt om de inhoud die door deze modellen wordt gegenereerd te beoordelen, alsof het verhalen zijn geschreven door studenten en beoordeeld door een (menselijke) leraar. Dit nieuwe paradigma overkomt de tekortkomingen van standaard benchmarks, die vaak vereisen dat de output van het model zeer gestructureerd is, en biedt bovendien een multidimensionale score voor het model, met scores voor verschillende vaardigheden zoals grammatica, creativiteit en consistentie.
We hopen dat TinyStories de ontwikkeling, analyse en het onderzoek van LMs kan vergemakkelijken, vooral voor domeinen met weinig middelen of gespecialiseerde domeinen, en inzicht kan bieden in het ontstaan van taalvaardigheden in LMs.
English
Language models (LMs) are powerful tools for natural language processing, but
they often struggle to produce coherent and fluent text when they are small.
Models with around 125M parameters such as GPT-Neo (small) or GPT-2 (small) can
rarely generate coherent and consistent English text beyond a few words even
after extensive training. This raises the question of whether the emergence of
the ability to produce coherent English text only occurs at larger scales (with
hundreds of millions of parameters or more) and complex architectures (with
many layers of global attention).
In this work, we introduce TinyStories, a synthetic dataset of short stories
that only contain words that a typical 3 to 4-year-olds usually understand,
generated by GPT-3.5 and GPT-4. We show that TinyStories can be used to train
and evaluate LMs that are much smaller than the state-of-the-art models (below
10 million total parameters), or have much simpler architectures (with only one
transformer block), yet still produce fluent and consistent stories with
several paragraphs that are diverse and have almost perfect grammar, and
demonstrate reasoning capabilities.
We also introduce a new paradigm for the evaluation of language models: We
suggest a framework which uses GPT-4 to grade the content generated by these
models as if those were stories written by students and graded by a (human)
teacher. This new paradigm overcomes the flaws of standard benchmarks which
often requires the model's output to be very structures, and moreover provides
a multidimensional score for the model, providing scores for different
capabilities such as grammar, creativity and consistency.
We hope that TinyStories can facilitate the development, analysis and
research of LMs, especially for low-resource or specialized domains, and shed
light on the emergence of language capabilities in LMs.