LLäMmlein: Modelos de Lenguaje Compactos y Competitivos en Alemán desde Cero
LLäMmlein: Compact and Competitive German-Only Language Models from Scratch
November 17, 2024
Autores: Jan Pfister, Julia Wunderle, Andreas Hotho
cs.AI
Resumen
Creamos dos modelos decodificadores exclusivamente en alemán, LL\"aMmlein 120M y 1B, de forma transparente desde cero y los publicamos, junto con los datos de entrenamiento, para que la comunidad de investigación en Procesamiento del Lenguaje Natural en alemán los utilice. El entrenamiento del modelo involucró varios pasos clave, incluyendo un extenso preprocesamiento de datos, la creación de un tokenizador alemán personalizado, el propio entrenamiento, así como la evaluación de los modelos finales en varios benchmarks. A lo largo del proceso de entrenamiento, se guardaron múltiples puntos de control y se analizaron utilizando el benchmark SuperGLEBer para monitorear la dinámica de aprendizaje de los modelos. En comparación con los modelos de vanguardia en el benchmark SuperGLEBer, ambos modelos LL\"aMmlein tuvieron un rendimiento competitivo, igualando o superando consistentemente a modelos con tamaños de parámetros similares. Los resultados muestran que la calidad de los modelos escala con el tamaño como se esperaba, pero las mejoras de rendimiento en algunas tareas se estancaron temprano, ofreciendo valiosas ideas sobre la asignación de recursos para el desarrollo futuro de modelos.
English
We create two German-only decoder models, LL\"aMmlein 120M and 1B,
transparently from scratch and publish them, along with the training data, for
the German NLP research community to use. The model training involved several
key steps, including extensive data preprocessing, the creation of a custom
German tokenizer, the training itself, as well as the evaluation of the final
models on various benchmarks. Throughout the training process, multiple
checkpoints were saved and analyzed using the SuperGLEBer benchmark to monitor
the models' learning dynamics. Compared to state-of-the-art models on the
SuperGLEBer benchmark, both LL\"aMmlein models performed competitively,
consistently matching or surpassing models with similar parameter sizes. The
results show that the models' quality scales with size as expected, but
performance improvements on some tasks plateaued early, offering valuable
insights into resource allocation for future model development.Summary
AI-Generated Summary