ChatPaper.aiChatPaper

HARE: Человеческие приоритеты, ключ к эффективности небольших языковых моделей

HARE: HumAn pRiors, a key to small language model Efficiency

June 17, 2024
Авторы: Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu
cs.AI

Аннотация

Человеческие априорные предположения играют ключевую роль в эффективном использовании данных в глубоком обучении. Однако с развитием крупных языковых моделей (LLM) наблюдается увеличение акцента на масштабирование как размера модели, так и объема данных, что часто снижает важность человеческих априорных предположений при создании данных. Под влиянием этих тенденций существующие малые языковые модели (SLM) в основном полагаются на данные обучения крупного масштаба, полученные из веб-скрапинга, пренебрегая должным включением человеческих априорных предположений. Это упущение ограничивает эффективность обучения языковых моделей в условиях ограниченных ресурсов. В данной статье мы предлагаем принцип использования человеческих априорных предположений для создания данных. Этот принцип подчеркивает достижение высокопроизводительных SLM путем обучения на кратком наборе данных, который учитывает как семантическое разнообразие, так и согласованность качества данных, избегая утечки данных оценочных испытаний. Следуя этому принципу, мы обучаем SLM под названием HARE-1.1B. Обширные эксперименты на крупных наборах данных оценочных испытаний показывают, что HARE-1.1B показывает себя благоприятно по сравнению с современными SLM, подтверждая эффективность предложенного принципа. Кроме того, это предоставляет новые идеи для эффективного обучения языковых моделей в условиях ограниченных ресурсов с точки зрения человеческих априорных предположений.
English
Human priors play a crucial role in efficiently utilizing data in deep learning. However, with the development of large language models (LLMs), there is an increasing emphasis on scaling both model size and data volume, which often diminishes the importance of human priors in data construction. Influenced by these trends, existing Small Language Models (SLMs) mainly rely on web-scraped large-scale training data, neglecting the proper incorporation of human priors. This oversight limits the training efficiency of language models in resource-constrained settings. In this paper, we propose a principle to leverage human priors for data construction. This principle emphasizes achieving high-performance SLMs by training on a concise dataset that accommodates both semantic diversity and data quality consistency, while avoiding benchmark data leakage. Following this principle, we train an SLM named HARE-1.1B. Extensive experiments on large-scale benchmark datasets demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs, validating the effectiveness of the proposed principle. Additionally, this provides new insights into efficient language model training in resource-constrained environments from the view of human priors.

Summary

AI-Generated Summary

PDF401December 2, 2024