PLDR-LLMs leren een generaliseerbare tensoroperator die hun eigen diepe neuraal netwerk tijdens inferentie kan vervangen.
PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference
February 19, 2025
Auteurs: Burc Gokden
cs.AI
Samenvatting
We tonen aan dat het Large Language Model uit Power Law Decoder Representations (PLDR-LLM) een fundamenteel model is waarvan de deductieve uitvoer invariantetensoren zijn, op een kleine verstoring na. PLDR-LLM leert een singulariteitsvoorwaarde voor de deductieve uitvoer die het mogelijk maakt dat de eenmaal afgeleide energie-krommingstensor G_{LM} het diepe neuraal netwerk van power law graph attention (PLGA) vervangt dat de deductieve uitvoer genereert tijdens inferentie. We demonstreren dat een cache voor G_{LM} (G-cache) en KV-cache op een eenvoudige manier kunnen worden geïmplementeerd om de inferentietijd te verbeteren. De invariantie en generaliseerbare aard van de deductieve uitvoer is van zeer hoge kwaliteit, waarbij de deductieve uitvoer dezelfde RMSE- en determinantwaarden heeft tot op 15 decimalen na caching, en zero-shot benchmarkscores ongewijzigd blijven. Ablatiestudies tonen aan dat geleerde deductieve uitvoer verschillende verlies- en nauwkeurigheidskenmerken heeft in vergelijking met modellen die vooraf zijn getraind met overgedragen, willekeurig geïnitialiseerde of identiteitstensoren als een constante tensoroperator, en dat een LLM met scaled-dot product attention (SDPA) een speciaal geval is van PLDR-LLM waarbij G_{LM} vooraf is gedefinieerd als identiteit. De waargenomen invariantiekenmerk introduceert een nieuwe asymmetrie tussen de trainings- en inferentiefasen met caching. We schetsen de waargenomen gemeenschappelijke kenmerken van de deductieve uitvoer voor de geleerde singulariteitsvoorwaarde. We bieden een implementatie van een trainings- en inferentiekader voor PLDR-LLM met KV-cache en G-cache.
English
We show that Large Language Model from Power Law Decoder Representations
(PLDR-LLM) is a foundational model whose deductive outputs are invariant
tensors up to a small perturbation. PLDR-LLM learns a singularity condition for
the deductive outputs that enable the once-inferred energy-curvature tensor
G_{LM} to replace the deep neural network of power law graph
attention (PLGA) generating the deductive outputs at inference. We demonstrate
that a cache for G_{LM} (G-cache) and KV-cache can be implemented in
a straightforward manner to improve the inference time. The invariance and
generalizable nature of deductive outputs is at a very high fidelity where
deductive outputs have same RMSE and determinant values up to 15 decimal places
after caching, and zero-shot benchmark scores remain unchanged. Ablation
studies show that learned deductive outputs have distinct loss and accuracy
characteristics from models pretrained with transferred, randomly initialized
or identity tensors as a constant tensor operator and an LLM with scaled-dot
product attention (SDPA) is a special case of PLDR-LLM where G_{LM}
is predefined as identity. The observed invariance characteristic introduces a
novel asymmetry between training and inference phases with caching. We outline
observed common characteristics of the deductive outputs for the learned
singularity condition. We provide an implementation of a training and inference
framework for PLDR-LLM with KV-cache and G-cache.Summary
AI-Generated Summary