I PLDR-LLM apprendono un operatore tensoriale generalizzabile in grado di sostituire la propria rete neurale profonda durante l'inferenza

Abstract

Dimostriamo che il Large Language Model da Power Law Decoder Representations (PLDR-LLM) è un modello fondazionale i cui output deduttivi sono tensori invarianti a meno di una piccola perturbazione. PLDR-LLM apprende una condizione di singolarità per gli output deduttivi che consente al tensore energia-curvatura G_{LM}, una volta inferito, di sostituire la rete neurale profonda di power law graph attention (PLGA) che genera gli output deduttivi durante l'inferenza. Dimostriamo che una cache per G_{LM} (G-cache) e KV-cache può essere implementata in modo diretto per migliorare il tempo di inferenza. L'invarianza e la natura generalizzabile degli output deduttivi sono di altissima fedeltà, dove gli output deduttivi mantengono gli stessi valori di RMSE e determinante fino a 15 cifre decimali dopo la memorizzazione nella cache, e i punteggi dei benchmark zero-shot rimangono invariati. Studi di ablazione mostrano che gli output deduttivi appresi presentano caratteristiche di perdita e accuratezza distinte rispetto a modelli preaddestrati con tensori trasferiti, inizializzati casualmente o tensori identità come operatore tensoriale costante, e che un LLM con scaled-dot product attention (SDPA) è un caso speciale di PLDR-LLM in cui G_{LM} è predefinito come identità. La caratteristica di invarianza osservata introduce una nuova asimmetria tra le fasi di addestramento e inferenza con memorizzazione nella cache. Descriviamo le caratteristiche comuni osservate degli output deduttivi per la condizione di singolarità appresa. Forniamo un'implementazione di un framework di addestramento e inferenza per PLDR-LLM con KV-cache e G-cache.

English

We show that Large Language Model from Power Law Decoder Representations (PLDR-LLM) is a foundational model whose deductive outputs are invariant tensors up to a small perturbation. PLDR-LLM learns a singularity condition for the deductive outputs that enable the once-inferred energy-curvature tensor G_{LM} to replace the deep neural network of power law graph attention (PLGA) generating the deductive outputs at inference. We demonstrate that a cache for G_{LM} (G-cache) and KV-cache can be implemented in a straightforward manner to improve the inference time. The invariance and generalizable nature of deductive outputs is at a very high fidelity where deductive outputs have same RMSE and determinant values up to 15 decimal places after caching, and zero-shot benchmark scores remain unchanged. Ablation studies show that learned deductive outputs have distinct loss and accuracy characteristics from models pretrained with transferred, randomly initialized or identity tensors as a constant tensor operator and an LLM with scaled-dot product attention (SDPA) is a special case of PLDR-LLM where G_{LM} is predefined as identity. The observed invariance characteristic introduces a novel asymmetry between training and inference phases with caching. We outline observed common characteristics of the deductive outputs for the learned singularity condition. We provide an implementation of a training and inference framework for PLDR-LLM with KV-cache and G-cache.

I PLDR-LLM apprendono un operatore tensoriale generalizzabile in grado di sostituire la propria rete neurale profonda durante l'inferenza

PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

Abstract

Support