ChatPaper.aiChatPaper

HARE: Priores Humanos, clave para la eficiencia de los modelos de lenguaje pequeños

HARE: HumAn pRiors, a key to small language model Efficiency

June 17, 2024
Autores: Lingyun Zhang, Bin jin, Gaojian Ge, Lunhui Liu, Xuewen Shen, Mingyong Wu, Houqian Zhang, Yongneng Jiang, Shiqi Chen, Shi Pu
cs.AI

Resumen

Los conocimientos previos humanos desempeñan un papel crucial en la utilización eficiente de los datos en el aprendizaje profundo. Sin embargo, con el desarrollo de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), se ha puesto un mayor énfasis en escalar tanto el tamaño del modelo como el volumen de datos, lo que a menudo reduce la importancia de los conocimientos previos humanos en la construcción de datos. Influenciados por estas tendencias, los modelos de lenguaje pequeños (SLMs, por sus siglas en inglés) existentes dependen principalmente de datos de entrenamiento a gran escala extraídos de la web, descuidando la incorporación adecuada de los conocimientos previos humanos. Esta omisión limita la eficiencia del entrenamiento de los modelos de lenguaje en entornos con recursos limitados. En este artículo, proponemos un principio para aprovechar los conocimientos previos humanos en la construcción de datos. Este principio enfatiza la obtención de SLMs de alto rendimiento mediante el entrenamiento en un conjunto de datos conciso que combine diversidad semántica y consistencia en la calidad de los datos, evitando la filtración de datos de referencia. Siguiendo este principio, entrenamos un SLM llamado HARE-1.1B. Experimentos exhaustivos en conjuntos de datos de referencia a gran escala demuestran que HARE-1.1B supera favorablemente a los SLMs más avanzados, validando la efectividad del principio propuesto. Además, esto proporciona nuevas perspectivas sobre el entrenamiento eficiente de modelos de lenguaje en entornos con recursos limitados desde el punto de vista de los conocimientos previos humanos.
English
Human priors play a crucial role in efficiently utilizing data in deep learning. However, with the development of large language models (LLMs), there is an increasing emphasis on scaling both model size and data volume, which often diminishes the importance of human priors in data construction. Influenced by these trends, existing Small Language Models (SLMs) mainly rely on web-scraped large-scale training data, neglecting the proper incorporation of human priors. This oversight limits the training efficiency of language models in resource-constrained settings. In this paper, we propose a principle to leverage human priors for data construction. This principle emphasizes achieving high-performance SLMs by training on a concise dataset that accommodates both semantic diversity and data quality consistency, while avoiding benchmark data leakage. Following this principle, we train an SLM named HARE-1.1B. Extensive experiments on large-scale benchmark datasets demonstrate that HARE-1.1B performs favorably against state-of-the-art SLMs, validating the effectiveness of the proposed principle. Additionally, this provides new insights into efficient language model training in resource-constrained environments from the view of human priors.

Summary

AI-Generated Summary

PDF401December 2, 2024