TinyStories: Насколько маленькими могут быть языковые модели и при этом сохранять способность к связной речи на английском языке?
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
May 12, 2023
Авторы: Ronen Eldan, Yuanzhi Li
cs.AI
Аннотация
Языковые модели (ЯМ) являются мощными инструментами для обработки естественного языка, однако они часто испытывают трудности с генерацией связного и беглого текста, когда их размеры невелики. Модели с примерно 125 миллионами параметров, такие как GPT-Neo (малая) или GPT-2 (малая), редко способны генерировать связный и последовательный текст на английском языке, выходящий за пределы нескольких слов, даже после длительного обучения. Это поднимает вопрос о том, возникает ли способность к созданию связного текста на английском языке только на более крупных масштабах (с сотнями миллионов параметров или более) и в сложных архитектурах (с множеством слоев глобального внимания).
В данной работе мы представляем TinyStories — синтетический набор данных, состоящий из коротких рассказов, которые содержат только слова, обычно понятные детям в возрасте от 3 до 4 лет, сгенерированные моделями GPT-3.5 и GPT-4. Мы показываем, что TinyStories может быть использован для обучения и оценки языковых моделей, которые значительно меньше современных моделей (менее 10 миллионов параметров) или имеют гораздо более простую архитектуру (с одним трансформерным блоком), но при этом способны генерировать беглые и последовательные рассказы, состоящие из нескольких абзацев, которые отличаются разнообразием и почти идеальной грамматикой, а также демонстрируют способности к логическому рассуждению.
Мы также представляем новую парадигму для оценки языковых моделей: предлагаем подход, в котором GPT-4 оценивает контент, сгенерированный этими моделями, как если бы это были рассказы, написанные учениками и оцененные (человеческим) учителем. Эта новая парадигма преодолевает недостатки стандартных тестов, которые часто требуют, чтобы вывод модели был строго структурирован, и, более того, предоставляет многомерную оценку модели, учитывая такие аспекты, как грамматика, креативность и последовательность.
Мы надеемся, что TinyStories сможет способствовать разработке, анализу и исследованиям языковых моделей, особенно в условиях ограниченных ресурсов или специализированных областей, а также прольет свет на возникновение языковых способностей в ЯМ.
English
Language models (LMs) are powerful tools for natural language processing, but
they often struggle to produce coherent and fluent text when they are small.
Models with around 125M parameters such as GPT-Neo (small) or GPT-2 (small) can
rarely generate coherent and consistent English text beyond a few words even
after extensive training. This raises the question of whether the emergence of
the ability to produce coherent English text only occurs at larger scales (with
hundreds of millions of parameters or more) and complex architectures (with
many layers of global attention).
In this work, we introduce TinyStories, a synthetic dataset of short stories
that only contain words that a typical 3 to 4-year-olds usually understand,
generated by GPT-3.5 and GPT-4. We show that TinyStories can be used to train
and evaluate LMs that are much smaller than the state-of-the-art models (below
10 million total parameters), or have much simpler architectures (with only one
transformer block), yet still produce fluent and consistent stories with
several paragraphs that are diverse and have almost perfect grammar, and
demonstrate reasoning capabilities.
We also introduce a new paradigm for the evaluation of language models: We
suggest a framework which uses GPT-4 to grade the content generated by these
models as if those were stories written by students and graded by a (human)
teacher. This new paradigm overcomes the flaws of standard benchmarks which
often requires the model's output to be very structures, and moreover provides
a multidimensional score for the model, providing scores for different
capabilities such as grammar, creativity and consistency.
We hope that TinyStories can facilitate the development, analysis and
research of LMs, especially for low-resource or specialized domains, and shed
light on the emergence of language capabilities in LMs.