ChatPaper.aiChatPaper

TinyStories : Quelle peut être la taille minimale des modèles de langage tout en conservant une cohérence en anglais ?

TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

May 12, 2023
Auteurs: Ronen Eldan, Yuanzhi Li
cs.AI

Résumé

Les modèles de langage (LMs) sont des outils puissants pour le traitement du langage naturel, mais ils peinent souvent à produire un texte cohérent et fluide lorsqu'ils sont de petite taille. Les modèles comportant environ 125 millions de paramètres, tels que GPT-Neo (petit) ou GPT-2 (petit), parviennent rarement à générer un texte anglais cohérent et consistant au-delà de quelques mots, même après un entraînement approfondi. Cela soulève la question de savoir si l'émergence de la capacité à produire un texte anglais cohérent ne se manifeste qu'à des échelles plus grandes (avec des centaines de millions de paramètres ou plus) et des architectures complexes (avec de nombreuses couches d'attention globale). Dans ce travail, nous introduisons TinyStories, un ensemble de données synthétiques de courtes histoires qui ne contiennent que des mots généralement compris par un enfant typique de 3 à 4 ans, générées par GPT-3.5 et GPT-4. Nous montrons que TinyStories peut être utilisé pour entraîner et évaluer des LMs bien plus petits que les modèles de pointe (moins de 10 millions de paramètres au total), ou dotés d'architectures beaucoup plus simples (avec un seul bloc de transformateur), mais qui produisent néanmoins des histoires fluides et cohérentes de plusieurs paragraphes, diversifiées et dotées d'une grammaire presque parfaite, tout en démontrant des capacités de raisonnement. Nous introduisons également un nouveau paradigme pour l'évaluation des modèles de langage : nous proposons un cadre qui utilise GPT-4 pour noter le contenu généré par ces modèles, comme s'il s'agissait d'histoires écrites par des élèves et notées par un enseignant (humain). Ce nouveau paradigme surmonte les défauts des benchmarks standards qui exigent souvent que la sortie du modèle soit très structurée, et fournit en outre un score multidimensionnel pour le modèle, attribuant des notes pour différentes capacités telles que la grammaire, la créativité et la cohérence. Nous espérons que TinyStories pourra faciliter le développement, l'analyse et la recherche sur les LMs, en particulier pour les domaines à faibles ressources ou spécialisés, et éclairer l'émergence des capacités linguistiques dans les LMs.
English
Language models (LMs) are powerful tools for natural language processing, but they often struggle to produce coherent and fluent text when they are small. Models with around 125M parameters such as GPT-Neo (small) or GPT-2 (small) can rarely generate coherent and consistent English text beyond a few words even after extensive training. This raises the question of whether the emergence of the ability to produce coherent English text only occurs at larger scales (with hundreds of millions of parameters or more) and complex architectures (with many layers of global attention). In this work, we introduce TinyStories, a synthetic dataset of short stories that only contain words that a typical 3 to 4-year-olds usually understand, generated by GPT-3.5 and GPT-4. We show that TinyStories can be used to train and evaluate LMs that are much smaller than the state-of-the-art models (below 10 million total parameters), or have much simpler architectures (with only one transformer block), yet still produce fluent and consistent stories with several paragraphs that are diverse and have almost perfect grammar, and demonstrate reasoning capabilities. We also introduce a new paradigm for the evaluation of language models: We suggest a framework which uses GPT-4 to grade the content generated by these models as if those were stories written by students and graded by a (human) teacher. This new paradigm overcomes the flaws of standard benchmarks which often requires the model's output to be very structures, and moreover provides a multidimensional score for the model, providing scores for different capabilities such as grammar, creativity and consistency. We hope that TinyStories can facilitate the development, analysis and research of LMs, especially for low-resource or specialized domains, and shed light on the emergence of language capabilities in LMs.
PDF3610December 15, 2024