ChatPaper.aiChatPaper

HARE: Humane Vorkenntnisse, ein Schlüssel zur Effizienz kleiner Sprachmodelle

HARE: HumAn pRiors, a key to small language model Efficiency

June 17, 2024
Autoren: Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu
cs.AI

Zusammenfassung

Menschliche Vorkenntnisse spielen eine entscheidende Rolle bei der effizienten Nutzung von Daten im Bereich des Deep Learning. Mit der Entwicklung großer Sprachmodelle (LLMs) liegt jedoch ein zunehmender Schwerpunkt auf der Skalierung sowohl der Modellgröße als auch des Datenvolumens, was oft die Bedeutung menschlicher Vorkenntnisse bei der Datenerstellung verringert. Beeinflusst von diesen Trends verlassen sich bestehende kleine Sprachmodelle (SLMs) hauptsächlich auf im Web gesammelte, umfangreiche Trainingsdaten und vernachlässigen die angemessene Einbeziehung menschlicher Vorkenntnisse. Diese Vernachlässigung begrenzt die Effizienz des Trainings von Sprachmodellen in ressourcenbeschränkten Umgebungen. In diesem Artikel schlagen wir ein Prinzip vor, um menschliche Vorkenntnisse für die Datenerstellung zu nutzen. Dieses Prinzip legt den Schwerpunkt darauf, leistungsstarke SLMs zu erreichen, indem sie auf einem prägnanten Datensatz trainieren, der sowohl semantische Vielfalt als auch Datenqualitätskonsistenz berücksichtigt, während Datenlecks vermieden werden. Unter Anwendung dieses Prinzips trainieren wir ein SLM namens HARE-1.1B. Umfangreiche Experimente mit umfangreichen Benchmark-Datensätzen zeigen, dass HARE-1.1B gegenüber führenden SLMs gut abschneidet und die Wirksamkeit des vorgeschlagenen Prinzips bestätigt. Darüber hinaus liefert dies neue Erkenntnisse für das effiziente Training von Sprachmodellen in ressourcenbeschränkten Umgebungen aus der Sicht menschlicher Vorkenntnisse.
English
Human priors play a crucial role in efficiently utilizing data in deep learning. However, with the development of large language models (LLMs), there is an increasing emphasis on scaling both model size and data volume, which often diminishes the importance of human priors in data construction. Influenced by these trends, existing Small Language Models (SLMs) mainly rely on web-scraped large-scale training data, neglecting the proper incorporation of human priors. This oversight limits the training efficiency of language models in resource-constrained settings. In this paper, we propose a principle to leverage human priors for data construction. This principle emphasizes achieving high-performance SLMs by training on a concise dataset that accommodates both semantic diversity and data quality consistency, while avoiding benchmark data leakage. Following this principle, we train an SLM named HARE-1.1B. Extensive experiments on large-scale benchmark datasets demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs, validating the effectiveness of the proposed principle. Additionally, this provides new insights into efficient language model training in resource-constrained environments from the view of human priors.

Summary

AI-Generated Summary

PDF401December 2, 2024