Fietje: Un LLM abierto y eficiente para el idioma neerlandés.

Resumen

Este documento presenta Fietje, una familia de modelos de lenguaje pequeños (SLMs) diseñados específicamente para el idioma neerlandés. El modelo se basa en Phi 2, un modelo centrado en el inglés de 2.7 mil millones de parámetros. Fietje demostró resultados competitivos con modelos de lenguaje más grandes al ser lanzado. Un énfasis central de este trabajo es la transparencia y la reproducibilidad: Fietje es completamente de código abierto, con pesos del modelo, conjuntos de datos, entrenamiento y código de evaluación accesibles públicamente. El documento discute el rendimiento de Fietje y muchos otros modelos en una amplia suite de evaluación de benchmarks en razonamiento, análisis de sentimientos, conocimiento del mundo, aceptabilidad lingüística y desambiguación del sentido de las palabras. Los resultados de la evaluación ilustran el rápido progreso en el campo de los LLMs, donde modelos pequeños recientes superan a modelos más antiguos y grandes que fueron ajustados para el neerlandés. Esta tendencia señala un futuro emocionante para el procesamiento del idioma neerlandés, sugiriendo que incluso los LLMs compactos están volviéndose cada vez más capaces. Además, los esfuerzos en curso y futuros para adaptar LLMs al neerlandés están preparados para mejorar aún más estos modelos, ampliando su aplicabilidad y accesibilidad. Fietje es solo un paso intermedio en la mejora de la accesibilidad a la tecnología del lenguaje para los usuarios del idioma neerlandés.

English

This paper introduces Fietje, a family of small language models (SLMs) specifically designed for the Dutch language. The model is based on Phi 2, an English-centric model of 2.7 billion parameters. Fietje demonstrated competitive results with larger language models upon its release. A core emphasis of this work is transparency and reproducibility: Fietje is fully open-source, with model weights, datasets, training, and evaluation code all publicly accessible. The paper discusses the performance of Fietje and many other models on an extensive evaluation suite of benchmarks on reasoning, sentiment analysis, world knowledge, linguistic acceptability and word sense disambiguation. Evaluation results illustrate the rapid progress in the field of LLMs, where recent small models outperform older, larger models that were fine-tuned for Dutch. This trend signals an exciting future for Dutch language processing, suggesting that even compact LLMs are becoming increasingly capable. Furthermore, ongoing and future efforts to adapt LLMs to Dutch are poised to enhance these models even further, broadening their applicability and accessibility. Fietje is only an intermediate step in improving accessibility to language technology for users of the Dutch language.