ChatPaper.aiChatPaper

PLDR-LLMs изучают обобщаемый тензорный оператор, который может заменить свою собственную глубокую нейронную сеть при выводе.

PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

February 19, 2025
Авторы: Burc Gokden
cs.AI

Аннотация

Мы показываем, что большая языковая модель с представлениями декодера степенного закона (PLDR-LLM) является базовой моделью, чьи выводы по дедукции являются инвариантными тензорами с небольшим возмущением. PLDR-LLM изучает условие особенности для выводов по дедукции, которое позволяет энергетическо-кривизненному тензору G_{LM}, однажды выведенному, заменить глубокую нейронную сеть степенного закона графового внимания (PLGA), генерирующую выводы по дедукции при выводе. Мы демонстрируем, что кэш для G_{LM} (G-кэш) и KV-кэш могут быть реализованы прямым способом для улучшения времени вывода. Инвариантность и обобщающая способность выводов по дедукции имеют очень высокую достоверность, где выводы по дедукции имеют одинаковые значения RMSE и определителя до 15 десятичных знаков после кэширования, а показатели нулевого теста остаются неизменными. Исследования абляции показывают, что изученные выводы по дедукции имеют различные характеристики потерь и точности по сравнению с моделями, предварительно обученными с переданными, случайно инициализированными или тензорами идентичности в качестве постоянного тензорного оператора, и LLM с вниманием на масштабированное скалярное произведение (SDPA) является частным случаем PLDR-LLM, где G_{LM} предопределен как идентичность. Наблюдаемая инвариантная характеристика вводит новую асимметрию между этапами обучения и вывода с кэшированием. Мы обрисовываем наблюдаемые общие характеристики выводов по дедукции для изученного условия особенности. Мы предоставляем реализацию обучающего и выводного каркаса для PLDR-LLM с KV-кэшем и G-кэшем.
English
We show that Large Language Model from Power Law Decoder Representations (PLDR-LLM) is a foundational model whose deductive outputs are invariant tensors up to a small perturbation. PLDR-LLM learns a singularity condition for the deductive outputs that enable the once-inferred energy-curvature tensor G_{LM} to replace the deep neural network of power law graph attention (PLGA) generating the deductive outputs at inference. We demonstrate that a cache for G_{LM} (G-cache) and KV-cache can be implemented in a straightforward manner to improve the inference time. The invariance and generalizable nature of deductive outputs is at a very high fidelity where deductive outputs have same RMSE and determinant values up to 15 decimal places after caching, and zero-shot benchmark scores remain unchanged. Ablation studies show that learned deductive outputs have distinct loss and accuracy characteristics from models pretrained with transferred, randomly initialized or identity tensors as a constant tensor operator and an LLM with scaled-dot product attention (SDPA) is a special case of PLDR-LLM where G_{LM} is predefined as identity. The observed invariance characteristic introduces a novel asymmetry between training and inference phases with caching. We outline observed common characteristics of the deductive outputs for the learned singularity condition. We provide an implementation of a training and inference framework for PLDR-LLM with KV-cache and G-cache.

Summary

AI-Generated Summary

PDF32February 25, 2025