HARE : HumAn pRiors, une clé pour l'efficacité des petits modèles de langage
HARE: HumAn pRiors, a key to small language model Efficiency
June 17, 2024
Auteurs: Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu
cs.AI
Résumé
Les connaissances a priori humaines jouent un rôle crucial dans l'utilisation efficace des données en apprentissage profond. Cependant, avec le développement des grands modèles de langage (LLM), l'accent est de plus en plus mis sur l'augmentation à la fois de la taille des modèles et du volume de données, ce qui tend à diminuer l'importance des connaissances a priori humaines dans la construction des données. Influencés par ces tendances, les petits modèles de langage (SLM) existants reposent principalement sur des données d'entraînement massives extraites du web, négligeant l'intégration appropriée des connaissances a priori humaines. Cette négligence limite l'efficacité de l'entraînement des modèles de langage dans des contextes où les ressources sont limitées. Dans cet article, nous proposons un principe pour exploiter les connaissances a priori humaines dans la construction des données. Ce principe met l'accent sur l'obtention de SLM performants en s'entraînant sur un ensemble de données concis qui allie diversité sémantique et cohérence de qualité des données, tout en évitant les fuites de données de référence. En suivant ce principe, nous entraînons un SLM nommé HARE-1.1B. Des expériences approfondies sur des ensembles de données de référence à grande échelle montrent que HARE-1.1B surpasse les SLM de pointe, validant ainsi l'efficacité du principe proposé. De plus, cela offre de nouvelles perspectives sur l'entraînement efficace des modèles de langage dans des environnements à ressources limitées, du point de vue des connaissances a priori humaines.
English
Human priors play a crucial role in efficiently utilizing data in deep
learning. However, with the development of large language models (LLMs), there
is an increasing emphasis on scaling both model size and data volume, which
often diminishes the importance of human priors in data construction.
Influenced by these trends, existing Small Language Models (SLMs) mainly rely
on web-scraped large-scale training data, neglecting the proper incorporation
of human priors. This oversight limits the training efficiency of language
models in resource-constrained settings. In this paper, we propose a principle
to leverage human priors for data construction. This principle emphasizes
achieving high-performance SLMs by training on a concise dataset that
accommodates both semantic diversity and data quality consistency, while
avoiding benchmark data leakage. Following this principle, we train an SLM
named HARE-1.1B. Extensive experiments on large-scale benchmark datasets
demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs,
validating the effectiveness of the proposed principle. Additionally, this
provides new insights into efficient language model training in
resource-constrained environments from the view of human priors.Summary
AI-Generated Summary