HARE: Priorità Umane, la chiave per l'efficienza dei piccoli modelli linguistici

Abstract

I priori umani svolgono un ruolo cruciale nell'utilizzo efficiente dei dati nel deep learning. Tuttavia, con lo sviluppo dei grandi modelli linguistici (LLM), si sta ponendo sempre più enfasi sulla scalabilità sia delle dimensioni del modello che del volume dei dati, il che spesso riduce l'importanza dei priori umani nella costruzione dei dati. Influenzati da queste tendenze, i piccoli modelli linguistici (SLM) esistenti si basano principalmente su dati di addestramento su larga scala raccolti dal web, trascurando un'adeguata incorporazione dei priori umani. Questa omissione limita l'efficienza dell'addestramento dei modelli linguistici in contesti con risorse limitate. In questo articolo, proponiamo un principio per sfruttare i priori umani nella costruzione dei dati. Questo principio enfatizza il raggiungimento di SLM ad alte prestazioni addestrandoli su un dataset conciso che bilancia la diversità semantica e la coerenza della qualità dei dati, evitando al contempo la fuoriuscita di dati di benchmark. Seguendo questo principio, abbiamo addestrato un SLM denominato HARE-1.1B. Esperimenti estesi su dataset di benchmark su larga scala dimostrano che HARE-1.1B si comporta favorevolmente rispetto agli SLM all'avanguardia, validando l'efficacia del principio proposto. Inoltre, ciò fornisce nuove intuizioni sull'addestramento efficiente dei modelli linguistici in ambienti con risorse limitate dal punto di vista dei priori umani.

English

Human priors play a crucial role in efficiently utilizing data in deep learning. However, with the development of large language models (LLMs), there is an increasing emphasis on scaling both model size and data volume, which often diminishes the importance of human priors in data construction. Influenced by these trends, existing Small Language Models (SLMs) mainly rely on web-scraped large-scale training data, neglecting the proper incorporation of human priors. This oversight limits the training efficiency of language models in resource-constrained settings. In this paper, we propose a principle to leverage human priors for data construction. This principle emphasizes achieving high-performance SLMs by training on a concise dataset that accommodates both semantic diversity and data quality consistency, while avoiding benchmark data leakage. Following this principle, we train an SLM named HARE-1.1B. Extensive experiments on large-scale benchmark datasets demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs, validating the effectiveness of the proposed principle. Additionally, this provides new insights into efficient language model training in resource-constrained environments from the view of human priors.

HARE: Priorità Umane, la chiave per l'efficienza dei piccoli modelli linguistici

HARE: HumAn pRiors, a key to small language model Efficiency

Abstract

Support