I PLDR-LLM Ragionano Alla Criticalità Auto-Organizzata

Abstract

Dimostriamo che i PLDR-LLM addestrati in condizioni di criticalità auto-organizzata esibiscono capacità di ragionamento al momento dell'inferenza. Le caratteristiche degli output deduttivi dei PLDR-LLM in criticalità sono simili alle transizioni di fase del secondo ordine. In criticalità, la lunghezza di correlazione diverge e gli output deduttivi raggiungono uno stato stazionario metastabile. Il comportamento di stato stazionario suggerisce che gli output deduttivi apprendono rappresentazioni equivalenti a funzioni di scaling, classi di universalità e gruppi di rinormalizzazione dal dataset di addestramento, portando nel processo a capacità di generalizzazione e ragionamento. Possiamo quindi definire un parametro d'ordine dalle statistiche globali dei parametri di output deduttivo del modello durante l'inferenza. Le capacità di ragionamento di un PLDR-LLM sono migliori quando il suo parametro d'ordine è prossimo allo zero in criticalità. Questa osservazione è supportata dai punteggi di benchmark dei modelli addestrati in condizioni di quasi-criticalità e sub-criticalità. I nostri risultati forniscono una spiegazione autonoma di come il ragionamento si manifesti nei grandi modelli linguistici, e la capacità di ragionare può essere quantificata unicamente dai valori globali dei parametri del modello degli output deduttivi in stato stazionario, senza necessità di valutare dataset di benchmark curati attraverso output induttivo per il ragionamento e la comprensione.

English

We show that PLDR-LLMs pretrained at self-organized criticality exhibit reasoning at inference time. The characteristics of PLDR-LLM deductive outputs at criticality is similar to second-order phase transitions. At criticality, the correlation length diverges, and the deductive outputs attain a metastable steady state. The steady state behaviour suggests that deductive outputs learn representations equivalent to scaling functions, universality classes and renormalization groups from the training dataset, leading to generalization and reasoning capabilities in the process. We can then define an order parameter from the global statistics of the model's deductive output parameters at inference. The reasoning capabilities of a PLDR-LLM is better when its order parameter is close to zero at criticality. This observation is supported by the benchmark scores of the models trained at near-criticality and sub-criticality. Our results provide a self-contained explanation on how reasoning manifests in large language models, and the ability to reason can be quantified solely from global model parameter values of the deductive outputs at steady state, without any need for evaluation of curated benchmark datasets through inductive output for reasoning and comprehension.

I PLDR-LLM Ragionano Alla Criticalità Auto-Organizzata

PLDR-LLMs Reason At Self-Organized Criticality

Abstract

Support