Los PLDM-LLM razonan en un estado de autoorganización crítica.

Resumen

Demostramos que los PLDR-LLMs preentrenados en criticidad auto-organizada exhiben razonamiento en el momento de la inferencia. Las características de las salidas deductivas del PLDR-LLM en criticidad son similares a las transiciones de fase de segundo orden. En criticidad, la longitud de correlación diverge y las salidas deductivas alcanzan un estado metaestable estacionario. El comportamiento estacionario sugiere que las salidas deductivas aprenden representaciones equivalentes a funciones de escala, clases de universalidad y grupos de renormalización del conjunto de datos de entrenamiento, lo que conduce a capacidades de generalización y razonamiento en el proceso. Posteriormente, podemos definir un parámetro de orden a partir de las estadísticas globales de los parámetros de salida deductiva del modelo durante la inferencia. Las capacidades de razonamiento de un PLDR-LLM son mejores cuando su parámetro de orden está cerca de cero en criticidad. Esta observación está respaldada por las puntuaciones de referencia de los modelos entrenados en cuasi-criticidad y sub-criticidad. Nuestros resultados proporcionan una explicación autocontenida de cómo se manifiesta el razonamiento en los modelos de lenguaje grandes, y la capacidad de razonar puede cuantificarse únicamente a partir de los valores de los parámetros globales del modelo de las salidas deductivas en estado estacionario, sin necesidad de evaluar conjuntos de datos de referencia seleccionados mediante salida inductiva para razonamiento y comprensión.

English

We show that PLDR-LLMs pretrained at self-organized criticality exhibit reasoning at inference time. The characteristics of PLDR-LLM deductive outputs at criticality is similar to second-order phase transitions. At criticality, the correlation length diverges, and the deductive outputs attain a metastable steady state. The steady state behaviour suggests that deductive outputs learn representations equivalent to scaling functions, universality classes and renormalization groups from the training dataset, leading to generalization and reasoning capabilities in the process. We can then define an order parameter from the global statistics of the model's deductive output parameters at inference. The reasoning capabilities of a PLDR-LLM is better when its order parameter is close to zero at criticality. This observation is supported by the benchmark scores of the models trained at near-criticality and sub-criticality. Our results provide a self-contained explanation on how reasoning manifests in large language models, and the ability to reason can be quantified solely from global model parameter values of the deductive outputs at steady state, without any need for evaluation of curated benchmark datasets through inductive output for reasoning and comprehension.

Los PLDM-LLM razonan en un estado de autoorganización crítica.

PLDR-LLMs Reason At Self-Organized Criticality

Resumen

Support