HARE: HumAn pRiors, een sleutel tot efficiëntie van kleine taalmodellen
HARE: HumAn pRiors, a key to small language model Efficiency
June 17, 2024
Auteurs: Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu
cs.AI
Samenvatting
Menselijke voorkennis speelt een cruciale rol bij het efficiënt benutten van data in deep learning. Met de ontwikkeling van grote taalmmodellen (LLMs) is er echter een toenemende nadruk op het opschalen van zowel de modelgrootte als de datavolume, wat vaak het belang van menselijke voorkennis bij dataconstructie vermindert. Onder invloed van deze trends vertrouwen bestaande Kleine Taalmodellen (SLMs) voornamelijk op grootschalige trainingsdata die van het web zijn geschraapt, waarbij de juiste integratie van menselijke voorkennis wordt verwaarloosd. Deze omissie beperkt de trainings efficiëntie van taalmmodellen in omgevingen met beperkte middelen. In dit artikel stellen we een principe voor om menselijke voorkennis te benutten voor dataconstructie. Dit principe benadrukt het bereiken van hoogwaardige SLMs door te trainen op een beknopte dataset die zowel semantische diversiteit als consistentie in data kwaliteit omvat, terwijl het lekken van benchmarkdata wordt vermeden. Volgens dit principe trainen we een SLM genaamd HARE-1.1B. Uitgebreide experimenten op grootschalige benchmarkdatasets tonen aan dat HARE-1.1B gunstig presteert in vergelijking met state-of-the-art SLMs, wat de effectiviteit van het voorgestelde principe bevestigt. Daarnaast biedt dit nieuwe inzichten in efficiënte training van taalmmodellen in omgevingen met beperkte middelen vanuit het perspectief van menselijke voorkennis.
English
Human priors play a crucial role in efficiently utilizing data in deep
learning. However, with the development of large language models (LLMs), there
is an increasing emphasis on scaling both model size and data volume, which
often diminishes the importance of human priors in data construction.
Influenced by these trends, existing Small Language Models (SLMs) mainly rely
on web-scraped large-scale training data, neglecting the proper incorporation
of human priors. This oversight limits the training efficiency of language
models in resource-constrained settings. In this paper, we propose a principle
to leverage human priors for data construction. This principle emphasizes
achieving high-performance SLMs by training on a concise dataset that
accommodates both semantic diversity and data quality consistency, while
avoiding benchmark data leakage. Following this principle, we train an SLM
named HARE-1.1B. Extensive experiments on large-scale benchmark datasets
demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs,
validating the effectiveness of the proposed principle. Additionally, this
provides new insights into efficient language model training in
resource-constrained environments from the view of human priors.