TinyStories: ¿Qué tan pequeños pueden ser los modelos de lenguaje y aún hablar inglés coherente?
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
May 12, 2023
Autores: Ronen Eldan, Yuanzhi Li
cs.AI
Resumen
Los modelos de lenguaje (LM, por sus siglas en inglés) son herramientas poderosas para el procesamiento del lenguaje natural, pero a menudo tienen dificultades para producir texto coherente y fluido cuando son de tamaño reducido. Modelos con alrededor de 125 millones de parámetros, como GPT-Neo (pequeño) o GPT-2 (pequeño), rara vez pueden generar texto en inglés coherente y consistente más allá de unas pocas palabras, incluso después de un entrenamiento extenso. Esto plantea la cuestión de si la capacidad de producir texto coherente en inglés solo emerge a escalas mayores (con cientos de millones de parámetros o más) y con arquitecturas complejas (con muchas capas de atención global).
En este trabajo, presentamos TinyStories, un conjunto de datos sintético de cuentos cortos que solo contienen palabras que un niño típico de 3 a 4 años suele entender, generados por GPT-3.5 y GPT-4. Demostramos que TinyStories puede utilizarse para entrenar y evaluar LM que son mucho más pequeños que los modelos de última generación (menos de 10 millones de parámetros en total) o que tienen arquitecturas mucho más simples (con solo un bloque de transformadores), pero que aún así producen cuentos fluidos y consistentes de varios párrafos que son diversos, tienen una gramática casi perfecta y demuestran capacidades de razonamiento.
También introducimos un nuevo paradigma para la evaluación de modelos de lenguaje: proponemos un marco que utiliza GPT-4 para calificar el contenido generado por estos modelos como si fueran cuentos escritos por estudiantes y calificados por un profesor (humano). Este nuevo paradigma supera los defectos de los puntos de referencia estándar, que a menudo requieren que la salida del modelo sea muy estructurada, y además proporciona una puntuación multidimensional para el modelo, ofreciendo calificaciones para diferentes capacidades, como gramática, creatividad y consistencia.
Esperamos que TinyStories pueda facilitar el desarrollo, análisis e investigación de LM, especialmente en dominios de bajos recursos o especializados, y arrojar luz sobre la emergencia de capacidades lingüísticas en los LM.
English
Language models (LMs) are powerful tools for natural language processing, but
they often struggle to produce coherent and fluent text when they are small.
Models with around 125M parameters such as GPT-Neo (small) or GPT-2 (small) can
rarely generate coherent and consistent English text beyond a few words even
after extensive training. This raises the question of whether the emergence of
the ability to produce coherent English text only occurs at larger scales (with
hundreds of millions of parameters or more) and complex architectures (with
many layers of global attention).
In this work, we introduce TinyStories, a synthetic dataset of short stories
that only contain words that a typical 3 to 4-year-olds usually understand,
generated by GPT-3.5 and GPT-4. We show that TinyStories can be used to train
and evaluate LMs that are much smaller than the state-of-the-art models (below
10 million total parameters), or have much simpler architectures (with only one
transformer block), yet still produce fluent and consistent stories with
several paragraphs that are diverse and have almost perfect grammar, and
demonstrate reasoning capabilities.
We also introduce a new paradigm for the evaluation of language models: We
suggest a framework which uses GPT-4 to grade the content generated by these
models as if those were stories written by students and graded by a (human)
teacher. This new paradigm overcomes the flaws of standard benchmarks which
often requires the model's output to be very structures, and moreover provides
a multidimensional score for the model, providing scores for different
capabilities such as grammar, creativity and consistency.
We hope that TinyStories can facilitate the development, analysis and
research of LMs, especially for low-resource or specialized domains, and shed
light on the emergence of language capabilities in LMs.