PLDR-LLMs Raciocinam no Ponto de Criticalidade Auto-Organizada

Resumo

Demonstramos que os PLDR-LLMs pré-treinados no ponto de criticalidade auto-organizada exibem raciocínio durante a inferência. As características das saídas dedutivas do PLDR-LLM na criticalidade são semelhantes às transições de fase de segunda ordem. Na criticalidade, o comprimento de correlação diverge, e as saídas dedutivas atingem um estado estacionário metaestável. O comportamento de estado estacionário sugere que as saídas dedutivas aprendem representações equivalentes a funções de escala, classes de universalidade e grupos de renormalização a partir do conjunto de dados de treinamento, levando a capacidades de generalização e raciocínio no processo. Podemos então definir um parâmetro de ordem a partir das estatísticas globais dos parâmetros de saída dedutiva do modelo durante a inferência. As capacidades de raciocínio de um PLDR-LLM são melhores quando seu parâmetro de ordem está próximo de zero na criticalidade. Esta observação é corroborada pelos resultados dos *benchmarks* dos modelos treinados próximo à criticalidade e em sub-criticalidade. Nossos resultados fornecem uma explicação autocontida sobre como o raciocínio se manifesta em modelos de linguagem grandes, e a capacidade de raciocinar pode ser quantificada apenas a partir dos valores dos parâmetros globais do modelo das saídas dedutivas em estado estacionário, sem qualquer necessidade de avaliação de conjuntos de dados de *benchmark* selecionados por meio de saída indutiva para raciocínio e compreensão.

English

We show that PLDR-LLMs pretrained at self-organized criticality exhibit reasoning at inference time. The characteristics of PLDR-LLM deductive outputs at criticality is similar to second-order phase transitions. At criticality, the correlation length diverges, and the deductive outputs attain a metastable steady state. The steady state behaviour suggests that deductive outputs learn representations equivalent to scaling functions, universality classes and renormalization groups from the training dataset, leading to generalization and reasoning capabilities in the process. We can then define an order parameter from the global statistics of the model's deductive output parameters at inference. The reasoning capabilities of a PLDR-LLM is better when its order parameter is close to zero at criticality. This observation is supported by the benchmark scores of the models trained at near-criticality and sub-criticality. Our results provide a self-contained explanation on how reasoning manifests in large language models, and the ability to reason can be quantified solely from global model parameter values of the deductive outputs at steady state, without any need for evaluation of curated benchmark datasets through inductive output for reasoning and comprehension.

PLDR-LLMs Raciocinam no Ponto de Criticalidade Auto-Organizada

PLDR-LLMs Reason At Self-Organized Criticality

Resumo

Support