HARE : HumAn pRiors, une clé pour l'efficacité des petits modèles de langage

Résumé

Les connaissances a priori humaines jouent un rôle crucial dans l'utilisation efficace des données en apprentissage profond. Cependant, avec le développement des grands modèles de langage (LLM), l'accent est de plus en plus mis sur l'augmentation à la fois de la taille des modèles et du volume de données, ce qui tend à diminuer l'importance des connaissances a priori humaines dans la construction des données. Influencés par ces tendances, les petits modèles de langage (SLM) existants reposent principalement sur des données d'entraînement massives extraites du web, négligeant l'intégration appropriée des connaissances a priori humaines. Cette négligence limite l'efficacité de l'entraînement des modèles de langage dans des contextes où les ressources sont limitées. Dans cet article, nous proposons un principe pour exploiter les connaissances a priori humaines dans la construction des données. Ce principe met l'accent sur l'obtention de SLM performants en s'entraînant sur un ensemble de données concis qui allie diversité sémantique et cohérence de qualité des données, tout en évitant les fuites de données de référence. En suivant ce principe, nous entraînons un SLM nommé HARE-1.1B. Des expériences approfondies sur des ensembles de données de référence à grande échelle montrent que HARE-1.1B surpasse les SLM de pointe, validant ainsi l'efficacité du principe proposé. De plus, cela offre de nouvelles perspectives sur l'entraînement efficace des modèles de langage dans des environnements à ressources limitées, du point de vue des connaissances a priori humaines.

English

Human priors play a crucial role in efficiently utilizing data in deep learning. However, with the development of large language models (LLMs), there is an increasing emphasis on scaling both model size and data volume, which often diminishes the importance of human priors in data construction. Influenced by these trends, existing Small Language Models (SLMs) mainly rely on web-scraped large-scale training data, neglecting the proper incorporation of human priors. This oversight limits the training efficiency of language models in resource-constrained settings. In this paper, we propose a principle to leverage human priors for data construction. This principle emphasizes achieving high-performance SLMs by training on a concise dataset that accommodates both semantic diversity and data quality consistency, while avoiding benchmark data leakage. Following this principle, we train an SLM named HARE-1.1B. Extensive experiments on large-scale benchmark datasets demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs, validating the effectiveness of the proposed principle. Additionally, this provides new insights into efficient language model training in resource-constrained environments from the view of human priors.

HARE : HumAn pRiors, une clé pour l'efficacité des petits modèles de langage

HARE: HumAn pRiors, a key to small language model Efficiency

Résumé

Support