PLDR-LLM's Redeneren Bij Zelfgeorganiseerde Kritikaliteit

Samenvatting

Wij tonen aan dat PLDR-LLM's die zijn voorgetraind op zelfgeorganiseerd kritikaliteit, redeneervermogen vertonen tijdens inferentie. De kenmerken van de deductieve uitvoer van PLDR-LLM's bij kritikaliteit zijn vergelijkbaar met tweedegraads faseovergangen. Bij kritikaliteit divergeert de correlatielengte en bereiken de deductieve uitvoeren een metastabiele evenwichtstoestand. Het gedrag in deze evenwichtstoestand suggereert dat de deductieve uitvoeren representaties leren die equivalent zijn aan schalingsfuncties, universaliteitsklassen en hernormalisatiegroepen uit de trainingsdataset, wat leidt tot generalisatie- en redeneervermogen in het proces. Vervolgens kunnen we een ordeparameter definiëren op basis van de globale statistieken van de deductieve uitvoerparameters van het model tijdens inferentie. Het redeneervermogen van een PLDR-LLM is beter wanneer zijn ordeparameter bij kritikaliteit dicht bij nul ligt. Deze observatie wordt ondersteund door de benchmarkscores van de modellen die zijn getraind bij bijna-kritikaliteit en sub-kritikaliteit. Onze resultaten bieden een zelfstandige verklaring voor hoe redeneren zich manifesteert in grote taalmodellen, en het vermogen tot redeneren kan uitsluitend worden gekwantificeerd vanuit de globale modelparameterwaarden van de deductieve uitvoeren in de evenwichtstoestand, zonder enige noodzaak voor evaluatie van samengestelde benchmarkdatasets via inductieve uitvoer voor redeneren en begrip.

English

We show that PLDR-LLMs pretrained at self-organized criticality exhibit reasoning at inference time. The characteristics of PLDR-LLM deductive outputs at criticality is similar to second-order phase transitions. At criticality, the correlation length diverges, and the deductive outputs attain a metastable steady state. The steady state behaviour suggests that deductive outputs learn representations equivalent to scaling functions, universality classes and renormalization groups from the training dataset, leading to generalization and reasoning capabilities in the process. We can then define an order parameter from the global statistics of the model's deductive output parameters at inference. The reasoning capabilities of a PLDR-LLM is better when its order parameter is close to zero at criticality. This observation is supported by the benchmark scores of the models trained at near-criticality and sub-criticality. Our results provide a self-contained explanation on how reasoning manifests in large language models, and the ability to reason can be quantified solely from global model parameter values of the deductive outputs at steady state, without any need for evaluation of curated benchmark datasets through inductive output for reasoning and comprehension.

PLDR-LLM's Redeneren Bij Zelfgeorganiseerde Kritikaliteit

PLDR-LLMs Reason At Self-Organized Criticality

Samenvatting

Support