Les PLDR-LLM raisonnent à un état critique auto-organisé

Résumé

Nous démontrons que les modèles de langage de grande taille (LLM) pré-entraînés par processus de déséquilibre-rééquilibrage progressif (PLDR) à la criticité auto-organisée présentent des capacités de raisonnement lors de l'inférence. Les caractéristiques des sorties déductives des PLDR-LLM à la criticité sont similaires aux transitions de phase du second ordre. À la criticité, la longueur de corrélation diverge et les sorties déductives atteignent un état stationnaire métastable. Ce comportement stationnaire suggère que les sorties déductives apprennent des représentations équivalentes aux fonctions d'échelle, aux classes d'universalité et aux groupes de renormalisation à partir du jeu d'entraînement, conduisant ainsi à des capacités de généralisation et de raisonnement. Nous pouvons alors définir un paramètre d'ordre à partir des statistiques globales des paramètres de sortie déductive du modèle lors de l'inférence. Les capacités de raisonnement d'un PLDR-LLM sont meilleures lorsque son paramètre d'ordre est proche de zéro à la criticité. Cette observation est étayée par les scores d'évaluation des modèles entraînés près de la criticité et en sous-criticité. Nos résultats fournissent une explication autonome sur la manière dont le raisonnement émerge dans les grands modèles de langage, et la capacité à raisonner peut être quantifiée uniquement à partir des valeurs globales des paramètres du modèle des sorties déductives à l'état stationnaire, sans qu'il soit nécessaire d'évaluer des jeux de données de référence via des sorties inductives pour le raisonnement et la compréhension.

English

We show that PLDR-LLMs pretrained at self-organized criticality exhibit reasoning at inference time. The characteristics of PLDR-LLM deductive outputs at criticality is similar to second-order phase transitions. At criticality, the correlation length diverges, and the deductive outputs attain a metastable steady state. The steady state behaviour suggests that deductive outputs learn representations equivalent to scaling functions, universality classes and renormalization groups from the training dataset, leading to generalization and reasoning capabilities in the process. We can then define an order parameter from the global statistics of the model's deductive output parameters at inference. The reasoning capabilities of a PLDR-LLM is better when its order parameter is close to zero at criticality. This observation is supported by the benchmark scores of the models trained at near-criticality and sub-criticality. Our results provide a self-contained explanation on how reasoning manifests in large language models, and the ability to reason can be quantified solely from global model parameter values of the deductive outputs at steady state, without any need for evaluation of curated benchmark datasets through inductive output for reasoning and comprehension.

Les PLDR-LLM raisonnent à un état critique auto-organisé

PLDR-LLMs Reason At Self-Organized Criticality

Résumé

Support