PLDR-LLMs leren een generaliseerbare tensoroperator die hun eigen diepe neuraal netwerk tijdens inferentie kan vervangen.

Samenvatting

We tonen aan dat het Large Language Model uit Power Law Decoder Representations (PLDR-LLM) een fundamenteel model is waarvan de deductieve uitvoer invariantetensoren zijn, op een kleine verstoring na. PLDR-LLM leert een singulariteitsvoorwaarde voor de deductieve uitvoer die het mogelijk maakt dat de eenmaal afgeleide energie-krommingstensor G_{LM} het diepe neuraal netwerk van power law graph attention (PLGA) vervangt dat de deductieve uitvoer genereert tijdens inferentie. We demonstreren dat een cache voor G_{LM} (G-cache) en KV-cache op een eenvoudige manier kunnen worden geïmplementeerd om de inferentietijd te verbeteren. De invariantie en generaliseerbare aard van de deductieve uitvoer is van zeer hoge kwaliteit, waarbij de deductieve uitvoer dezelfde RMSE- en determinantwaarden heeft tot op 15 decimalen na caching, en zero-shot benchmarkscores ongewijzigd blijven. Ablatiestudies tonen aan dat geleerde deductieve uitvoer verschillende verlies- en nauwkeurigheidskenmerken heeft in vergelijking met modellen die vooraf zijn getraind met overgedragen, willekeurig geïnitialiseerde of identiteitstensoren als een constante tensoroperator, en dat een LLM met scaled-dot product attention (SDPA) een speciaal geval is van PLDR-LLM waarbij G_{LM} vooraf is gedefinieerd als identiteit. De waargenomen invariantiekenmerk introduceert een nieuwe asymmetrie tussen de trainings- en inferentiefasen met caching. We schetsen de waargenomen gemeenschappelijke kenmerken van de deductieve uitvoer voor de geleerde singulariteitsvoorwaarde. We bieden een implementatie van een trainings- en inferentiekader voor PLDR-LLM met KV-cache en G-cache.

English

We show that Large Language Model from Power Law Decoder Representations (PLDR-LLM) is a foundational model whose deductive outputs are invariant tensors up to a small perturbation. PLDR-LLM learns a singularity condition for the deductive outputs that enable the once-inferred energy-curvature tensor G_{LM} to replace the deep neural network of power law graph attention (PLGA) generating the deductive outputs at inference. We demonstrate that a cache for G_{LM} (G-cache) and KV-cache can be implemented in a straightforward manner to improve the inference time. The invariance and generalizable nature of deductive outputs is at a very high fidelity where deductive outputs have same RMSE and determinant values up to 15 decimal places after caching, and zero-shot benchmark scores remain unchanged. Ablation studies show that learned deductive outputs have distinct loss and accuracy characteristics from models pretrained with transferred, randomly initialized or identity tensors as a constant tensor operator and an LLM with scaled-dot product attention (SDPA) is a special case of PLDR-LLM where G_{LM} is predefined as identity. The observed invariance characteristic introduces a novel asymmetry between training and inference phases with caching. We outline observed common characteristics of the deductive outputs for the learned singularity condition. We provide an implementation of a training and inference framework for PLDR-LLM with KV-cache and G-cache.

PLDR-LLMs leren een generaliseerbare tensoroperator die hun eigen diepe neuraal netwerk tijdens inferentie kan vervangen.

PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

Samenvatting

Support