PLDR-LLMは、推論時に自身の深層ニューラルネットワークを置換可能な汎用性のあるテンソル演算子を学習する
PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference
February 19, 2025
著者: Burc Gokden
cs.AI
要旨
我々は、Power Law Decoder Representations (PLDR-LLM) に基づく大規模言語モデルが、小さな摂動に対して不変なテンソルを導出する基盤モデルであることを示す。PLDR-LLMは、導出出力に対する特異条件を学習し、一度推論されたエネルギー曲率テンソル \(G_{LM}\) が、推論時に導出出力を生成するべき乗則グラフアテンション (PLGA) の深層ニューラルネットワークを置き換えることを可能にする。我々は、\(G_{LM}\) のキャッシュ (G-cache) とKVキャッシュを直截に実装することで、推論時間を改善できることを実証する。導出出力の不変性と一般化性は非常に高い忠実度を持ち、キャッシュ後も導出出力のRMSEと行列式の値が15桁まで一致し、ゼロショットベンチマークスコアは変化しない。アブレーション研究により、学習された導出出力は、転移学習、ランダム初期化、または恒等テンソルを定数テンソル演算子として事前学習されたモデルとは異なる損失と精度特性を持つことが示され、スケールドット積アテンション (SDPA) を備えたLLMは、\(G_{LM}\) が恒等として事前定義されたPLDR-LLMの特殊ケースであることが明らかになった。観察された不変性特性は、キャッシュを用いた学習と推論フェーズの間に新たな非対称性を導入する。我々は、学習された特異条件に対する導出出力の共通特性を概説し、KVキャッシュとGキャッシュを備えたPLDR-LLMの学習および推論フレームワークの実装を提供する。
English
We show that Large Language Model from Power Law Decoder Representations
(PLDR-LLM) is a foundational model whose deductive outputs are invariant
tensors up to a small perturbation. PLDR-LLM learns a singularity condition for
the deductive outputs that enable the once-inferred energy-curvature tensor
G_{LM} to replace the deep neural network of power law graph
attention (PLGA) generating the deductive outputs at inference. We demonstrate
that a cache for G_{LM} (G-cache) and KV-cache can be implemented in
a straightforward manner to improve the inference time. The invariance and
generalizable nature of deductive outputs is at a very high fidelity where
deductive outputs have same RMSE and determinant values up to 15 decimal places
after caching, and zero-shot benchmark scores remain unchanged. Ablation
studies show that learned deductive outputs have distinct loss and accuracy
characteristics from models pretrained with transferred, randomly initialized
or identity tensors as a constant tensor operator and an LLM with scaled-dot
product attention (SDPA) is a special case of PLDR-LLM where G_{LM}
is predefined as identity. The observed invariance characteristic introduces a
novel asymmetry between training and inference phases with caching. We outline
observed common characteristics of the deductive outputs for the learned
singularity condition. We provide an implementation of a training and inference
framework for PLDR-LLM with KV-cache and G-cache.Summary
AI-Generated Summary