PLDR-LLMs функционируют в режиме самоорганизованной критичности

Аннотация

Мы показываем, что PLDR-LLM, дообученные в режиме самоорганизованной критичности, демонстрируют способность к логическому выводу во время инференса. Характеристики дедуктивных выходов PLDR-LLM в критическом состоянии аналогичны фазовым переходам второго рода. В точке критичности длина корреляции расходится, а дедуктивные выходы достигают метастабильного стационарного состояния. Поведение в стационарном состоянии позволяет предположить, что дедуктивные выходы усваивают из обучающего набора данных представления, эквивалентные скейлинговым функциям, классам универсальности и группам ренормализации, что в процессе приводит к способностям к обобщению и логическому рассуждению. Затем мы можем определить параметр порядка на основе глобальной статистики параметров дедуктивных выходов модели при инференсе. Способности к рассуждению у PLDR-LLM выше, когда её параметр порядка в критической точке близок к нулю. Это наблюдение подтверждается результатами моделей, обученных вблизи критической точки и в докритической области. Наши результаты дают самодостаточное объяснение тому, как рассуждение проявляется в больших языковых моделях, и показывают, что способность к рассуждению может быть количественно оценена исключительно на основе глобальных значений параметров модели для дедуктивных выходов в стационарном состоянии, без необходимости оценки специальных тестовых наборов данных через индуктивные выходы для проверки рассуждений и понимания.

English

We show that PLDR-LLMs pretrained at self-organized criticality exhibit reasoning at inference time. The characteristics of PLDR-LLM deductive outputs at criticality is similar to second-order phase transitions. At criticality, the correlation length diverges, and the deductive outputs attain a metastable steady state. The steady state behaviour suggests that deductive outputs learn representations equivalent to scaling functions, universality classes and renormalization groups from the training dataset, leading to generalization and reasoning capabilities in the process. We can then define an order parameter from the global statistics of the model's deductive output parameters at inference. The reasoning capabilities of a PLDR-LLM is better when its order parameter is close to zero at criticality. This observation is supported by the benchmark scores of the models trained at near-criticality and sub-criticality. Our results provide a self-contained explanation on how reasoning manifests in large language models, and the ability to reason can be quantified solely from global model parameter values of the deductive outputs at steady state, without any need for evaluation of curated benchmark datasets through inductive output for reasoning and comprehension.

PLDR-LLMs функционируют в режиме самоорганизованной критичности

PLDR-LLMs Reason At Self-Organized Criticality

Аннотация

Support