HARE: Priorità Umane, la chiave per l'efficienza dei piccoli modelli linguistici
HARE: HumAn pRiors, a key to small language model Efficiency
June 17, 2024
Autori: Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu
cs.AI
Abstract
I priori umani svolgono un ruolo cruciale nell'utilizzo efficiente dei dati nel deep learning. Tuttavia, con lo sviluppo dei grandi modelli linguistici (LLM), si sta ponendo sempre più enfasi sulla scalabilità sia delle dimensioni del modello che del volume dei dati, il che spesso riduce l'importanza dei priori umani nella costruzione dei dati. Influenzati da queste tendenze, i piccoli modelli linguistici (SLM) esistenti si basano principalmente su dati di addestramento su larga scala raccolti dal web, trascurando un'adeguata incorporazione dei priori umani. Questa omissione limita l'efficienza dell'addestramento dei modelli linguistici in contesti con risorse limitate. In questo articolo, proponiamo un principio per sfruttare i priori umani nella costruzione dei dati. Questo principio enfatizza il raggiungimento di SLM ad alte prestazioni addestrandoli su un dataset conciso che bilancia la diversità semantica e la coerenza della qualità dei dati, evitando al contempo la fuoriuscita di dati di benchmark. Seguendo questo principio, abbiamo addestrato un SLM denominato HARE-1.1B. Esperimenti estesi su dataset di benchmark su larga scala dimostrano che HARE-1.1B si comporta favorevolmente rispetto agli SLM all'avanguardia, validando l'efficacia del principio proposto. Inoltre, ciò fornisce nuove intuizioni sull'addestramento efficiente dei modelli linguistici in ambienti con risorse limitate dal punto di vista dei priori umani.
English
Human priors play a crucial role in efficiently utilizing data in deep
learning. However, with the development of large language models (LLMs), there
is an increasing emphasis on scaling both model size and data volume, which
often diminishes the importance of human priors in data construction.
Influenced by these trends, existing Small Language Models (SLMs) mainly rely
on web-scraped large-scale training data, neglecting the proper incorporation
of human priors. This oversight limits the training efficiency of language
models in resource-constrained settings. In this paper, we propose a principle
to leverage human priors for data construction. This principle emphasizes
achieving high-performance SLMs by training on a concise dataset that
accommodates both semantic diversity and data quality consistency, while
avoiding benchmark data leakage. Following this principle, we train an SLM
named HARE-1.1B. Extensive experiments on large-scale benchmark datasets
demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs,
validating the effectiveness of the proposed principle. Additionally, this
provides new insights into efficient language model training in
resource-constrained environments from the view of human priors.