TinyStories: 言語モデルはどれほど小さくても、一貫した英語を話すことができるのか?
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
May 12, 2023
著者: Ronen Eldan, Yuanzhi Li
cs.AI
要旨
言語モデル(LMs)は自然言語処理における強力なツールであるが、モデルが小規模である場合、一貫性のある流暢なテキストを生成するのに苦労することが多い。GPT-Neo(小規模)やGPT-2(小規模)のような約1億2500万パラメータのモデルは、たとえ十分な訓練を経ても、数語を超える一貫性のある英語テキストを生成することはほとんどない。これは、一貫性のある英語テキストを生成する能力が、より大規模な(数億以上のパラメータを持つ)複雑なアーキテクチャ(多くの層を持つグローバルアテンションを備えたもの)でのみ現れるのかという疑問を提起する。
本研究では、GPT-3.5とGPT-4によって生成された、典型的な3〜4歳児が理解する単語のみを含む短編ストーリーの合成データセット「TinyStories」を紹介する。我々は、TinyStoriesが、最先端のモデルよりもはるかに小規模な(総パラメータ数が1000万未満の)またははるかに単純なアーキテクチャ(1つのトランスフォーマーブロックのみを持つ)のLMsを訓練および評価するために使用できることを示す。これらのモデルは、多様でほぼ完璧な文法を持つ数段落の流暢で一貫性のあるストーリーを生成し、推論能力を発揮する。
また、言語モデルの評価のための新しいパラダイムを紹介する。我々は、GPT-4を使用してこれらのモデルによって生成された内容を、学生が書いたストーリーを(人間の)教師が採点するかのように評価するフレームワークを提案する。この新しいパラダイムは、モデルの出力が非常に構造化されていることを要求する標準的なベンチマークの欠点を克服し、さらに、文法、創造性、一貫性などの異なる能力に対するスコアを提供する多次元スコアを提供する。
我々は、TinyStoriesが、特に低リソースまたは専門的なドメインにおけるLMsの開発、分析、研究を促進し、LMsにおける言語能力の出現に光を当てることを期待している。
English
Language models (LMs) are powerful tools for natural language processing, but
they often struggle to produce coherent and fluent text when they are small.
Models with around 125M parameters such as GPT-Neo (small) or GPT-2 (small) can
rarely generate coherent and consistent English text beyond a few words even
after extensive training. This raises the question of whether the emergence of
the ability to produce coherent English text only occurs at larger scales (with
hundreds of millions of parameters or more) and complex architectures (with
many layers of global attention).
In this work, we introduce TinyStories, a synthetic dataset of short stories
that only contain words that a typical 3 to 4-year-olds usually understand,
generated by GPT-3.5 and GPT-4. We show that TinyStories can be used to train
and evaluate LMs that are much smaller than the state-of-the-art models (below
10 million total parameters), or have much simpler architectures (with only one
transformer block), yet still produce fluent and consistent stories with
several paragraphs that are diverse and have almost perfect grammar, and
demonstrate reasoning capabilities.
We also introduce a new paradigm for the evaluation of language models: We
suggest a framework which uses GPT-4 to grade the content generated by these
models as if those were stories written by students and graded by a (human)
teacher. This new paradigm overcomes the flaws of standard benchmarks which
often requires the model's output to be very structures, and moreover provides
a multidimensional score for the model, providing scores for different
capabilities such as grammar, creativity and consistency.
We hope that TinyStories can facilitate the development, analysis and
research of LMs, especially for low-resource or specialized domains, and shed
light on the emergence of language capabilities in LMs.