PLDR-LLMs aprenden un operador tensorial generalizable que puede reemplazar su propia red neuronal profunda durante la inferencia.

Resumen

Demostramos que el Modelo de Lenguaje de Gran Escala basado en Representaciones de Decodificador de Ley de Potencia (PLDR-LLM) es un modelo fundamental cuyas salidas deductivas son tensores invariantes hasta una pequeña perturbación. PLDR-LLM aprende una condición de singularidad para las salidas deductivas que permite que el tensor de energía-curvatura \(G_{LM}\), una vez inferido, reemplace la red neuronal profunda de atención de grafos de ley de potencia (PLGA) que genera las salidas deductivas durante la inferencia. Mostramos que una caché para \(G_{LM}\) (G-cache) y la KV-cache pueden implementarse de manera directa para mejorar el tiempo de inferencia. La naturaleza invariante y generalizable de las salidas deductivas se mantiene con una fidelidad muy alta, donde las salidas deductivas tienen los mismos valores de RMSE y determinante hasta 15 decimales después del almacenamiento en caché, y las puntuaciones de referencia zero-shot permanecen inalteradas. Los estudios de ablación muestran que las salidas deductivas aprendidas tienen características de pérdida y precisión distintas de los modelos preentrenados con tensores transferidos, inicializados aleatoriamente o tensores identidad como operador tensorial constante, y un LLM con atención de producto escalar escalado (SDPA) es un caso especial de PLDR-LLM donde \(G_{LM}\) está predefinido como identidad. La característica de invarianza observada introduce una asimetría novedosa entre las fases de entrenamiento e inferencia con almacenamiento en caché. Esbozamos las características comunes observadas de las salidas deductivas para la condición de singularidad aprendida. Proporcionamos una implementación de un marco de entrenamiento e inferencia para PLDR-LLM con KV-cache y G-cache.

English

We show that Large Language Model from Power Law Decoder Representations (PLDR-LLM) is a foundational model whose deductive outputs are invariant tensors up to a small perturbation. PLDR-LLM learns a singularity condition for the deductive outputs that enable the once-inferred energy-curvature tensor G_{LM} to replace the deep neural network of power law graph attention (PLGA) generating the deductive outputs at inference. We demonstrate that a cache for G_{LM} (G-cache) and KV-cache can be implemented in a straightforward manner to improve the inference time. The invariance and generalizable nature of deductive outputs is at a very high fidelity where deductive outputs have same RMSE and determinant values up to 15 decimal places after caching, and zero-shot benchmark scores remain unchanged. Ablation studies show that learned deductive outputs have distinct loss and accuracy characteristics from models pretrained with transferred, randomly initialized or identity tensors as a constant tensor operator and an LLM with scaled-dot product attention (SDPA) is a special case of PLDR-LLM where G_{LM} is predefined as identity. The observed invariance characteristic introduces a novel asymmetry between training and inference phases with caching. We outline observed common characteristics of the deductive outputs for the learned singularity condition. We provide an implementation of a training and inference framework for PLDR-LLM with KV-cache and G-cache.

PLDR-LLMs aprenden un operador tensorial generalizable que puede reemplazar su propia red neuronal profunda durante la inferencia.

PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

Resumen

Support