TinyStories: Quão Pequenos Podem Ser os Modelos de Linguagem e Ainda Falar Inglês de Forma Coerente?

Resumo

Modelos de linguagem (LMs) são ferramentas poderosas para o processamento de linguagem natural, mas frequentemente enfrentam dificuldades para produzir textos coerentes e fluentes quando são pequenos. Modelos com cerca de 125 milhões de parâmetros, como o GPT-Neo (pequeno) ou o GPT-2 (pequeno), raramente conseguem gerar textos em inglês coerentes e consistentes além de algumas palavras, mesmo após treinamento extensivo. Isso levanta a questão de saber se a emergência da capacidade de produzir textos em inglês coerentes ocorre apenas em escalas maiores (com centenas de milhões de parâmetros ou mais) e arquiteturas complexas (com muitas camadas de atenção global). Neste trabalho, apresentamos o TinyStories, um conjunto de dados sintético de histórias curtas que contêm apenas palavras que uma criança típica de 3 a 4 anos de idade geralmente entende, geradas pelo GPT-3.5 e GPT-4. Mostramos que o TinyStories pode ser usado para treinar e avaliar LMs que são muito menores do que os modelos state-of-the-art (abaixo de 10 milhões de parâmetros totais) ou têm arquiteturas muito mais simples (com apenas um bloco de transformador), mas ainda assim produzem histórias fluentes e consistentes com vários parágrafos que são diversificadas e têm gramática quase perfeita, além de demonstrar capacidades de raciocínio. Também introduzimos um novo paradigma para a avaliação de modelos de linguagem: sugerimos uma estrutura que utiliza o GPT-4 para classificar o conteúdo gerado por esses modelos como se fossem histórias escritas por alunos e avaliadas por um professor (humano). Esse novo paradigma supera as falhas dos benchmarks padrão, que frequentemente exigem que a saída do modelo seja muito estruturada, e, além disso, fornece uma pontuação multidimensional para o modelo, atribuindo notas para diferentes capacidades, como gramática, criatividade e consistência. Esperamos que o TinyStories possa facilitar o desenvolvimento, análise e pesquisa de LMs, especialmente para domínios de baixos recursos ou especializados, e lançar luz sobre a emergência de capacidades linguísticas em LMs.

English

Language models (LMs) are powerful tools for natural language processing, but they often struggle to produce coherent and fluent text when they are small. Models with around 125M parameters such as GPT-Neo (small) or GPT-2 (small) can rarely generate coherent and consistent English text beyond a few words even after extensive training. This raises the question of whether the emergence of the ability to produce coherent English text only occurs at larger scales (with hundreds of millions of parameters or more) and complex architectures (with many layers of global attention). In this work, we introduce TinyStories, a synthetic dataset of short stories that only contain words that a typical 3 to 4-year-olds usually understand, generated by GPT-3.5 and GPT-4. We show that TinyStories can be used to train and evaluate LMs that are much smaller than the state-of-the-art models (below 10 million total parameters), or have much simpler architectures (with only one transformer block), yet still produce fluent and consistent stories with several paragraphs that are diverse and have almost perfect grammar, and demonstrate reasoning capabilities. We also introduce a new paradigm for the evaluation of language models: We suggest a framework which uses GPT-4 to grade the content generated by these models as if those were stories written by students and graded by a (human) teacher. This new paradigm overcomes the flaws of standard benchmarks which often requires the model's output to be very structures, and moreover provides a multidimensional score for the model, providing scores for different capabilities such as grammar, creativity and consistency. We hope that TinyStories can facilitate the development, analysis and research of LMs, especially for low-resource or specialized domains, and shed light on the emergence of language capabilities in LMs.

TinyStories: Quão Pequenos Podem Ser os Modelos de Linguagem e Ainda Falar Inglês de Forma Coerente?

TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

Resumo

Support