ChatPaper.aiChatPaper

PLDR-LLM은 추론 단계에서 자체 심층 신경망을 대체할 수 있는 일반화 가능한 텐서 연산자를 학습한다.

PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

February 19, 2025
저자: Burc Gokden
cs.AI

초록

우리는 Power Law Decoder Representations에서 파생된 대규모 언어 모델(PLDR-LLM)이 작은 변동 범위 내에서 불변 텐서를 출력하는 기초 모델임을 보여준다. PLDR-LLM은 추론 시 Power Law Graph Attention(PLGA)의 심층 신경망을 대체할 수 있는 에너지-곡률 텐서 \(G_{LM}\)을 한 번 추론한 후 이를 활용할 수 있는 특이 조건(singularity condition)을 학습한다. 우리는 \(G_{LM}\) 캐시(G-cache)와 KV-cache를 간단히 구현하여 추론 시간을 개선할 수 있음을 입증한다. 이때, 추론 출력의 불변성과 일반화 특성은 매우 높은 정확도를 유지하며, 캐싱 후에도 RMSE와 행렬식 값이 소수점 15자리까지 동일하고, 제로샷 벤치마크 점수도 변하지 않는다. 추가 실험 결과, 학습된 추론 출력은 전이된, 무작위 초기화된, 또는 항등 텐서를 상수 텐서 연산자로 사용한 사전 학습 모델과는 구별되는 손실 및 정확도 특성을 보이며, 스케일드 닷 프로덕트 어텐션(SDPA)을 사용한 LLM은 \(G_{LM}\)이 항등 텐서로 미리 정의된 PLDR-LLM의 특수한 경우임을 확인했다. 관찰된 불변성 특성은 캐싱을 사용한 학습과 추론 단계 간의 새로운 비대칭성을 도입한다. 우리는 학습된 특이 조건에 대한 추론 출력의 공통적인 특성을 요약하고, KV-cache와 G-cache를 포함한 PLDR-LLM의 학습 및 추론 프레임워크 구현을 제공한다.
English
We show that Large Language Model from Power Law Decoder Representations (PLDR-LLM) is a foundational model whose deductive outputs are invariant tensors up to a small perturbation. PLDR-LLM learns a singularity condition for the deductive outputs that enable the once-inferred energy-curvature tensor G_{LM} to replace the deep neural network of power law graph attention (PLGA) generating the deductive outputs at inference. We demonstrate that a cache for G_{LM} (G-cache) and KV-cache can be implemented in a straightforward manner to improve the inference time. The invariance and generalizable nature of deductive outputs is at a very high fidelity where deductive outputs have same RMSE and determinant values up to 15 decimal places after caching, and zero-shot benchmark scores remain unchanged. Ablation studies show that learned deductive outputs have distinct loss and accuracy characteristics from models pretrained with transferred, randomly initialized or identity tensors as a constant tensor operator and an LLM with scaled-dot product attention (SDPA) is a special case of PLDR-LLM where G_{LM} is predefined as identity. The observed invariance characteristic introduces a novel asymmetry between training and inference phases with caching. We outline observed common characteristics of the deductive outputs for the learned singularity condition. We provide an implementation of a training and inference framework for PLDR-LLM with KV-cache and G-cache.

Summary

AI-Generated Summary

PDF32February 25, 2025