ChatPaper.aiChatPaper

LLäMmlein: Компактные и конкурентоспособные модели языка только на немецком с нуля

LLäMmlein: Compact and Competitive German-Only Language Models from Scratch

November 17, 2024
Авторы: Jan Pfister, Julia Wunderle, Andreas Hotho
cs.AI

Аннотация

Мы создаем две модели декодирования только на немецком языке, LL\"aMmlein 120M и 1B, прозрачно с нуля и публикуем их, вместе с обучающими данными, для использования немецким исследовательским сообществом в области обработки естественного языка. Обучение модели включало несколько ключевых этапов, включая обширную предобработку данных, создание индивидуального токенизатора для немецкого языка, само обучение, а также оценку конечных моделей на различных бенчмарках. На протяжении процесса обучения были сохранены несколько контрольных точек и проанализированы с использованием бенчмарка SuperGLEBer для мониторинга динамики обучения моделей. По сравнению с передовыми моделями на бенчмарке SuperGLEBer, обе модели LL\"aMmlein показали конкурентоспособные результаты, последовательно соответствуя или превосходя модели с аналогичными размерами параметров. Результаты показывают, что качество моделей масштабируется с увеличением размера, как ожидалось, но улучшения производительности на некоторых задачах замедляются рано, предоставляя ценные идеи для распределения ресурсов для будущего развития моделей.
English
We create two German-only decoder models, LL\"aMmlein 120M and 1B, transparently from scratch and publish them, along with the training data, for the German NLP research community to use. The model training involved several key steps, including extensive data preprocessing, the creation of a custom German tokenizer, the training itself, as well as the evaluation of the final models on various benchmarks. Throughout the training process, multiple checkpoints were saved and analyzed using the SuperGLEBer benchmark to monitor the models' learning dynamics. Compared to state-of-the-art models on the SuperGLEBer benchmark, both LL\"aMmlein models performed competitively, consistently matching or surpassing models with similar parameter sizes. The results show that the models' quality scales with size as expected, but performance improvements on some tasks plateaued early, offering valuable insights into resource allocation for future model development.

Summary

AI-Generated Summary

PDF83November 19, 2024