Ley de Adam: Ley de Frecuencia Textual en Modelos de Lenguaje a Gran Escala

Resumen

Si bien la frecuencia textual ha sido validada como relevante para la cognición humana en la velocidad de lectura, su relación con los Modelos de Lenguaje a Gran Escala (LLMs) rara vez ha sido estudiada. Proponemos una nueva dirección de investigación en términos de la frecuencia de los datos textuales, un tema poco estudiado, según nuestro conocimiento. Nuestro marco consta de tres unidades. Primero, este artículo propone la Ley de Frecuencia Textual (TFL), que indica que los datos textuales frecuentes deben ser preferidos para los LLMs, tanto para el prompting como para el fine-tuning. Dado que muchos LLMs son de código cerrado en sus datos de entrenamiento, proponemos utilizar recursos en línea para estimar la frecuencia a nivel de oración. Luego, utilizamos un parafraseador de entrada para parafrasear el input en una expresión textual más frecuente. A continuación, proponemos la Destilación de Frecuencia Textual (TFD) consultando a los LLMs para realizar la completación de historias extendiendo aún más las oraciones en los conjuntos de datos, y los corpus resultantes se utilizan para ajustar la estimación inicial. Finalmente, proponemos el Entrenamiento Curricular por Frecuencia Textual (CTFT) que ajusta los LLMs en un orden creciente de frecuencia a nivel de oración. Los experimentos se realizan en nuestro conjunto de datos curado, el Conjunto de Datos Emparejados por Frecuencia Textual (TFPD), sobre razonamiento matemático, traducción automática, razonamiento de sentido común y llamadas a herramientas agentivas. Los resultados demuestran la efectividad de nuestro marco.

English

While textual frequency has been validated as relevant to human cognition in reading speed, its relatedness to Large Language Models (LLMs) is seldom studied. We propose a novel research direction in terms of textual data frequency, which is an understudied topic, to the best of our knowledge. Our framework is composed of three units. First, this paper proposes Textual Frequency Law (TFL), which indicates that frequent textual data should be preferred for LLMs for both prompting and fine-tuning. Since many LLMs are closed-source in their training data, we propose using online resources to estimate the sentence-level frequency. We then utilize an input paraphraser to paraphrase the input into a more frequent textual expression. Next, we propose Textual Frequency Distillation (TFD) by querying LLMs to conduct story completion by further extending the sentences in the datasets, and the resulting corpora are used to adjust the initial estimation. Finally, we propose Curriculum Textual Frequency Training (CTFT) that fine-tunes LLMs in an increasing order of sentence-level frequency. Experiments are conducted on our curated dataset Textual Frequency Paired Dataset (TFPD) on math reasoning, machine translation, commonsense reasoning and agentic tool calling. Results show the effectiveness of our framework.

Ley de Adam: Ley de Frecuencia Textual en Modelos de Lenguaje a Gran Escala

Adam's Law: Textual Frequency Law on Large Language Models

Resumen

Support