I PLDR-LLM apprendono un operatore tensoriale generalizzabile in grado di sostituire la propria rete neurale profonda durante l'inferenza
PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference
February 19, 2025
Autori: Burc Gokden
cs.AI
Abstract
Dimostriamo che il Large Language Model da Power Law Decoder Representations (PLDR-LLM) è un modello fondazionale i cui output deduttivi sono tensori invarianti a meno di una piccola perturbazione. PLDR-LLM apprende una condizione di singolarità per gli output deduttivi che consente al tensore energia-curvatura G_{LM}, una volta inferito, di sostituire la rete neurale profonda di power law graph attention (PLGA) che genera gli output deduttivi durante l'inferenza. Dimostriamo che una cache per G_{LM} (G-cache) e KV-cache può essere implementata in modo diretto per migliorare il tempo di inferenza. L'invarianza e la natura generalizzabile degli output deduttivi sono di altissima fedeltà, dove gli output deduttivi mantengono gli stessi valori di RMSE e determinante fino a 15 cifre decimali dopo la memorizzazione nella cache, e i punteggi dei benchmark zero-shot rimangono invariati. Studi di ablazione mostrano che gli output deduttivi appresi presentano caratteristiche di perdita e accuratezza distinte rispetto a modelli preaddestrati con tensori trasferiti, inizializzati casualmente o tensori identità come operatore tensoriale costante, e che un LLM con scaled-dot product attention (SDPA) è un caso speciale di PLDR-LLM in cui G_{LM} è predefinito come identità. La caratteristica di invarianza osservata introduce una nuova asimmetria tra le fasi di addestramento e inferenza con memorizzazione nella cache. Descriviamo le caratteristiche comuni osservate degli output deduttivi per la condizione di singolarità appresa. Forniamo un'implementazione di un framework di addestramento e inferenza per PLDR-LLM con KV-cache e G-cache.
English
We show that Large Language Model from Power Law Decoder Representations
(PLDR-LLM) is a foundational model whose deductive outputs are invariant
tensors up to a small perturbation. PLDR-LLM learns a singularity condition for
the deductive outputs that enable the once-inferred energy-curvature tensor
G_{LM} to replace the deep neural network of power law graph
attention (PLGA) generating the deductive outputs at inference. We demonstrate
that a cache for G_{LM} (G-cache) and KV-cache can be implemented in
a straightforward manner to improve the inference time. The invariance and
generalizable nature of deductive outputs is at a very high fidelity where
deductive outputs have same RMSE and determinant values up to 15 decimal places
after caching, and zero-shot benchmark scores remain unchanged. Ablation
studies show that learned deductive outputs have distinct loss and accuracy
characteristics from models pretrained with transferred, randomly initialized
or identity tensors as a constant tensor operator and an LLM with scaled-dot
product attention (SDPA) is a special case of PLDR-LLM where G_{LM}
is predefined as identity. The observed invariance characteristic introduces a
novel asymmetry between training and inference phases with caching. We outline
observed common characteristics of the deductive outputs for the learned
singularity condition. We provide an implementation of a training and inference
framework for PLDR-LLM with KV-cache and G-cache.Summary
AI-Generated Summary