Les PLDR-LLMs apprennent un opérateur tensoriel généralisable capable de remplacer leur propre réseau de neurones profond lors de l'inférence.

papers.abstract

Nous démontrons que le modèle de langage de grande taille issu des représentations de décodeur à loi de puissance (PLDR-LLM) est un modèle fondamental dont les sorties déductives sont des tenseurs invariants à une petite perturbation près. PLDR-LLM apprend une condition de singularité pour les sorties déductives qui permet au tenseur énergie-courbure G_{LM}, une fois inféré, de remplacer le réseau de neurones profond d'attention de graphe à loi de puissance (PLGA) générant les sorties déductives lors de l'inférence. Nous montrons qu'un cache pour G_{LM} (G-cache) et un KV-cache peuvent être implémentés de manière simple pour améliorer le temps d'inférence. La nature invariante et généralisable des sorties déductives est d'une très haute fidélité, où les sorties déductives ont les mêmes valeurs d'erreur quadratique moyenne (RMSE) et de déterminant jusqu'à 15 décimales après la mise en cache, et les scores de référence en zero-shot restent inchangés. Les études d'ablation montrent que les sorties déductives apprises présentent des caractéristiques de perte et de précision distinctes des modèles pré-entraînés avec des tenseurs transférés, initialisés aléatoirement ou identitaires comme opérateur tensoriels constants, et qu'un LLM avec attention par produit scalaire mis à l'échelle (SDPA) est un cas particulier de PLDR-LLM où G_{LM} est prédéfini comme identité. La caractéristique d'invariance observée introduit une nouvelle asymétrie entre les phases d'entraînement et d'inférence avec mise en cache. Nous décrivons les caractéristiques communes observées des sorties déductives pour la condition de singularité apprise. Nous fournissons une implémentation d'un cadre d'entraînement et d'inférence pour PLDR-LLM avec KV-cache et G-cache.

English

We show that Large Language Model from Power Law Decoder Representations (PLDR-LLM) is a foundational model whose deductive outputs are invariant tensors up to a small perturbation. PLDR-LLM learns a singularity condition for the deductive outputs that enable the once-inferred energy-curvature tensor G_{LM} to replace the deep neural network of power law graph attention (PLGA) generating the deductive outputs at inference. We demonstrate that a cache for G_{LM} (G-cache) and KV-cache can be implemented in a straightforward manner to improve the inference time. The invariance and generalizable nature of deductive outputs is at a very high fidelity where deductive outputs have same RMSE and determinant values up to 15 decimal places after caching, and zero-shot benchmark scores remain unchanged. Ablation studies show that learned deductive outputs have distinct loss and accuracy characteristics from models pretrained with transferred, randomly initialized or identity tensors as a constant tensor operator and an LLM with scaled-dot product attention (SDPA) is a special case of PLDR-LLM where G_{LM} is predefined as identity. The observed invariance characteristic introduces a novel asymmetry between training and inference phases with caching. We outline observed common characteristics of the deductive outputs for the learned singularity condition. We provide an implementation of a training and inference framework for PLDR-LLM with KV-cache and G-cache.

Les PLDR-LLMs apprennent un opérateur tensoriel généralisable capable de remplacer leur propre réseau de neurones profond lors de l'inférence.

PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

papers.abstract

Support