HARE: 소형 언어 모델 효율성의 열쇠, 인간 사전 지식
HARE: HumAn pRiors, a key to small language model Efficiency
June 17, 2024
저자: Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu
cs.AI
초록
인간 사전 지식은 딥러닝에서 데이터를 효율적으로 활용하는 데 중요한 역할을 합니다. 그러나 대규모 언어 모델(LLMs)의 발전과 함께 모델 크기와 데이터 양을 확장하는 데 초점이 맞춰지면서, 데이터 구축에서 인간 사전 지식의 중요성이 점차 감소하고 있습니다. 이러한 추세에 영향을 받아, 기존의 소규모 언어 모델(SLMs)은 주로 웹에서 수집된 대규모 훈련 데이터에 의존하며, 인간 사전 지식을 적절히 통합하지 못하고 있습니다. 이러한 간과는 자원이 제한된 환경에서 언어 모델의 훈련 효율성을 제한합니다. 본 논문에서는 데이터 구축을 위해 인간 사전 지식을 활용하는 원칙을 제안합니다. 이 원칙은 벤치마크 데이터 누출을 피하면서도 의미적 다양성과 데이터 품질 일관성을 모두 고려한 간결한 데이터셋을 통해 고성능 SLMs를 달성하는 데 중점을 둡니다. 이 원칙에 따라 HARE-1.1B라는 SLM을 훈련시켰습니다. 대규모 벤치마크 데이터셋에 대한 광범위한 실험을 통해 HARE-1.1B가 최신 SLMs와 비교하여 우수한 성능을 보임으로써 제안된 원칙의 효과를 입증했습니다. 또한, 이는 인간 사전 지식의 관점에서 자원이 제한된 환경에서의 효율적인 언어 모델 훈련에 대한 새로운 통찰을 제공합니다.
English
Human priors play a crucial role in efficiently utilizing data in deep
learning. However, with the development of large language models (LLMs), there
is an increasing emphasis on scaling both model size and data volume, which
often diminishes the importance of human priors in data construction.
Influenced by these trends, existing Small Language Models (SLMs) mainly rely
on web-scraped large-scale training data, neglecting the proper incorporation
of human priors. This oversight limits the training efficiency of language
models in resource-constrained settings. In this paper, we propose a principle
to leverage human priors for data construction. This principle emphasizes
achieving high-performance SLMs by training on a concise dataset that
accommodates both semantic diversity and data quality consistency, while
avoiding benchmark data leakage. Following this principle, we train an SLM
named HARE-1.1B. Extensive experiments on large-scale benchmark datasets
demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs,
validating the effectiveness of the proposed principle. Additionally, this
provides new insights into efficient language model training in
resource-constrained environments from the view of human priors.Summary
AI-Generated Summary