PLDR-LLMs argumentieren an der Grenze zur selbstorganisierten Kritikalität

Zusammenfassung

Wir zeigen, dass PLDR-LLMs, die am Punkt der selbstorganisierten Kritikalität vortrainiert wurden, zum Inferenzzeitpunkt Denkfähigkeiten aufweisen. Die Eigenschaften der deduktiven Ausgaben von PLDR-LLMs bei Kritikalität ähneln Phasenübergängen zweiter Ordnung. Am kritischen Punkt divergiert die Korrelationslänge, und die deduktiven Ausgaben erreichen einen metastabilen stationären Zustand. Das Verhalten im stationären Zustand legt nahe, dass die deduktiven Ausgaben aus dem Trainingsdatensatz Repräsentationen erlernen, die Skalierungsfunktionen, Universalitätsklassen und Renormierungsgruppen entsprechen, was zu Generalisierungs- und Denkfähigkeiten führt. Anschließend können wir einen Ordnungsparameter aus den globalen Statistiken der deduktiven Ausgabeparameter des Modells bei der Inferenz definieren. Die Denkfähigkeiten eines PLDR-LLMs sind besser, wenn sein Ordnungsparameter bei Kritikalität nahe null liegt. Diese Beobachtung wird durch die Benchmark-Ergebnisse der Modelle gestützt, die nahe der Kritikalität und unterkritisch trainiert wurden. Unsere Ergebnisse liefern eine in sich geschlossene Erklärung dafür, wie sich Denkfähigkeiten in großen Sprachmodellen manifestieren, und zeigen, dass die Fähigkeit zu schlussfolgern allein aus den globalen Modellparameterwerten der deduktiven Ausgaben im stationären Zustand quantifiziert werden kann, ohne dass eine Auswertung kuratierter Benchmark-Datensätze durch induktive Ausgaben für logisches Denken und Verständnis erforderlich ist.

English

We show that PLDR-LLMs pretrained at self-organized criticality exhibit reasoning at inference time. The characteristics of PLDR-LLM deductive outputs at criticality is similar to second-order phase transitions. At criticality, the correlation length diverges, and the deductive outputs attain a metastable steady state. The steady state behaviour suggests that deductive outputs learn representations equivalent to scaling functions, universality classes and renormalization groups from the training dataset, leading to generalization and reasoning capabilities in the process. We can then define an order parameter from the global statistics of the model's deductive output parameters at inference. The reasoning capabilities of a PLDR-LLM is better when its order parameter is close to zero at criticality. This observation is supported by the benchmark scores of the models trained at near-criticality and sub-criticality. Our results provide a self-contained explanation on how reasoning manifests in large language models, and the ability to reason can be quantified solely from global model parameter values of the deductive outputs at steady state, without any need for evaluation of curated benchmark datasets through inductive output for reasoning and comprehension.

PLDR-LLMs argumentieren an der Grenze zur selbstorganisierten Kritikalität

PLDR-LLMs Reason At Self-Organized Criticality

Zusammenfassung

Support