PLDR-LLMs lernen einen generalisierbaren Tensoroperator, der ihr eigenes tiefes neuronales Netzwerk während der Inferenz ersetzen kann.

papers.abstract

Wir zeigen, dass das Large Language Model aus Power Law Decoder Representations (PLDR-LLM) ein fundamentales Modell ist, dessen deduktive Ausgaben invariante Tensoren bis auf eine kleine Störung darstellen. PLDR-LLM lernt eine Singularitätsbedingung für die deduktiven Ausgaben, die es ermöglicht, dass der einmal abgeleitete Energie-Krümmungs-Tensor G_{LM} das tiefe neuronale Netzwerk der Power Law Graph Attention (PLGA) ersetzt, das die deduktiven Ausgaben während der Inferenz erzeugt. Wir demonstrieren, dass ein Cache für G_{LM} (G-Cache) und ein KV-Cache auf einfache Weise implementiert werden können, um die Inferenzzeit zu verbessern. Die Invarianz und generalisierbare Natur der deduktiven Ausgaben liegt mit einer sehr hohen Genauigkeit vor, wobei die deduktiven Ausgaben nach dem Caching denselben RMSE- und Determinantenwert bis zu 15 Dezimalstellen aufweisen und die Zero-Shot-Benchmark-Ergebnisse unverändert bleiben. Ablationsstudien zeigen, dass die gelernten deduktiven Ausgaben unterschiedliche Verlust- und Genauigkeitsmerkmale aufweisen im Vergleich zu Modellen, die mit transferierten, zufällig initialisierten oder Identitätstensoren als konstantem Tensoroperator vortrainiert wurden, und dass ein LLM mit Scaled-Dot-Product-Attention (SDPA) ein Spezialfall von PLDR-LLM ist, bei dem G_{LM} vordefiniert als Identitätstensor festgelegt ist. Die beobachtete Invarianzeigenschaft führt zu einer neuartigen Asymmetrie zwischen Trainings- und Inferenzphasen mit Caching. Wir skizzieren die beobachteten gemeinsamen Merkmale der deduktiven Ausgaben für die gelernte Singularitätsbedingung. Wir stellen eine Implementierung eines Trainings- und Inferenzframeworks für PLDR-LLM mit KV-Cache und G-Cache bereit.

English

We show that Large Language Model from Power Law Decoder Representations (PLDR-LLM) is a foundational model whose deductive outputs are invariant tensors up to a small perturbation. PLDR-LLM learns a singularity condition for the deductive outputs that enable the once-inferred energy-curvature tensor G_{LM} to replace the deep neural network of power law graph attention (PLGA) generating the deductive outputs at inference. We demonstrate that a cache for G_{LM} (G-cache) and KV-cache can be implemented in a straightforward manner to improve the inference time. The invariance and generalizable nature of deductive outputs is at a very high fidelity where deductive outputs have same RMSE and determinant values up to 15 decimal places after caching, and zero-shot benchmark scores remain unchanged. Ablation studies show that learned deductive outputs have distinct loss and accuracy characteristics from models pretrained with transferred, randomly initialized or identity tensors as a constant tensor operator and an LLM with scaled-dot product attention (SDPA) is a special case of PLDR-LLM where G_{LM} is predefined as identity. The observed invariance characteristic introduces a novel asymmetry between training and inference phases with caching. We outline observed common characteristics of the deductive outputs for the learned singularity condition. We provide an implementation of a training and inference framework for PLDR-LLM with KV-cache and G-cache.

PLDR-LLMs lernen einen generalisierbaren Tensoroperator, der ihr eigenes tiefes neuronales Netzwerk während der Inferenz ersetzen kann.

PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

papers.abstract

Support