PLDR-LLMs Aprendem um Operador Tensor Generalizável Que Pode Substituir Sua Própria Rede Neural Profunda Durante a Inferência

Resumo

Demonstramos que o Modelo de Linguagem Grande com Representações de Decodificador de Lei de Potência (PLDR-LLM) é um modelo fundamental cujas saídas dedutivas são tensores invariantes até uma pequena perturbação. O PLDR-LLM aprende uma condição de singularidade para as saídas dedutivas que permitem que o tensor de energia-curvatura uma vez inferido G_{LM} substitua a rede neural profunda de atenção de grafo de lei de potência (PLGA) gerando as saídas dedutivas na inferência. Demonstramos que um cache para G_{LM} (G-cache) e KV-cache podem ser implementados de maneira direta para melhorar o tempo de inferência. A invariância e natureza generalizável das saídas dedutivas são de alta fidelidade, onde as saídas dedutivas têm os mesmos valores de RMSE e determinante até 15 casas decimais após o cacheamento, e os resultados de benchmark zero-shot permanecem inalterados. Estudos de ablação mostram que as saídas dedutivas aprendidas têm características distintas de perda e precisão em relação a modelos pré-treinados com tensores transferidos, inicializados aleatoriamente ou de identidade como um operador de tensor constante, e um LLM com atenção de produto escalado de pontos (SDPA) é um caso especial de PLDR-LLM onde G_{LM} é predefinido como identidade. A característica de invariância observada introduz uma assimetria inovadora entre as fases de treinamento e inferência com cacheamento. Destacamos características comuns observadas das saídas dedutivas para a condição de singularidade aprendida. Fornecemos uma implementação de um framework de treinamento e inferência para PLDR-LLM com KV-cache e G-cache.

English

We show that Large Language Model from Power Law Decoder Representations (PLDR-LLM) is a foundational model whose deductive outputs are invariant tensors up to a small perturbation. PLDR-LLM learns a singularity condition for the deductive outputs that enable the once-inferred energy-curvature tensor G_{LM} to replace the deep neural network of power law graph attention (PLGA) generating the deductive outputs at inference. We demonstrate that a cache for G_{LM} (G-cache) and KV-cache can be implemented in a straightforward manner to improve the inference time. The invariance and generalizable nature of deductive outputs is at a very high fidelity where deductive outputs have same RMSE and determinant values up to 15 decimal places after caching, and zero-shot benchmark scores remain unchanged. Ablation studies show that learned deductive outputs have distinct loss and accuracy characteristics from models pretrained with transferred, randomly initialized or identity tensors as a constant tensor operator and an LLM with scaled-dot product attention (SDPA) is a special case of PLDR-LLM where G_{LM} is predefined as identity. The observed invariance characteristic introduces a novel asymmetry between training and inference phases with caching. We outline observed common characteristics of the deductive outputs for the learned singularity condition. We provide an implementation of a training and inference framework for PLDR-LLM with KV-cache and G-cache.

PLDR-LLMs Aprendem um Operador Tensor Generalizável Que Pode Substituir Sua Própria Rede Neural Profunda Durante a Inferência

PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

Resumo

Support