LLäMmlein : Modèles de langage compacts et compétitifs en allemand uniquement à partir de zéro
LLäMmlein: Compact and Competitive German-Only Language Models from Scratch
November 17, 2024
Auteurs: Jan Pfister, Julia Wunderle, Andreas Hotho
cs.AI
Résumé
Nous avons créé deux modèles de décodeur en allemand uniquement, LL\"aMmlein 120M et 1B, de manière transparente à partir de zéro et les avons publiés, ainsi que les données d'entraînement, pour que la communauté de recherche en traitement automatique du langage naturel en allemand puisse les utiliser. L'entraînement du modèle a impliqué plusieurs étapes clés, notamment un prétraitement intensif des données, la création d'un tokeniseur allemand personnalisé, l'entraînement proprement dit, ainsi que l'évaluation des modèles finaux sur divers benchmarks. Tout au long du processus d'entraînement, plusieurs points de contrôle ont été enregistrés et analysés en utilisant le benchmark SuperGLEBer pour surveiller la dynamique d'apprentissage des modèles. Comparés aux modèles de pointe sur le benchmark SuperGLEBer, les deux modèles LL\"aMmlein ont performé de manière compétitive, correspondant de manière constante ou surpassant des modèles avec des tailles de paramètres similaires. Les résultats montrent que la qualité des modèles évolue avec la taille comme prévu, mais les améliorations de performance sur certaines tâches ont atteint un plateau tôt, offrant des perspectives précieuses sur l'allocation des ressources pour le développement futur des modèles.
English
We create two German-only decoder models, LL\"aMmlein 120M and 1B,
transparently from scratch and publish them, along with the training data, for
the German NLP research community to use. The model training involved several
key steps, including extensive data preprocessing, the creation of a custom
German tokenizer, the training itself, as well as the evaluation of the final
models on various benchmarks. Throughout the training process, multiple
checkpoints were saved and analyzed using the SuperGLEBer benchmark to monitor
the models' learning dynamics. Compared to state-of-the-art models on the
SuperGLEBer benchmark, both LL\"aMmlein models performed competitively,
consistently matching or surpassing models with similar parameter sizes. The
results show that the models' quality scales with size as expected, but
performance improvements on some tasks plateaued early, offering valuable
insights into resource allocation for future model development.Summary
AI-Generated Summary