River-LLM:KV共有に基づく大規模言語モデルのシームレスな早期終了
River-LLM: Large Language Model Seamless Exit Based on KV Share
April 20, 2026
著者: Yingtao Shen, An Zou
cs.AI
要旨
大規模言語モデル(LLM)は多様な領域で優れた性能を示す一方、高い推論遅延によって制約を受けるケースが増えている。早期終了(Early Exit)は、冗長な層を動的に迂回することで推論を加速する有望な解決策として登場した。しかし、デコーダのみのアーキテクチャでは、早期終了の効率性はKVキャッシュ欠如問題によって深刻なボトルネックに直面している。この問題は、スキップされた層が後続のトークンに必要な履歴状態を提供できないことに起因する。再計算やマスキングなどの既存の解決策は、大幅な遅延オーバーヘッドを生じるか、あるいは深刻な精度低下を招くため、理論的な層削減と実効的な速度向上の間の隔たりを埋められていない。本論文では、トレーニング不要のフレームワークであるRiver-LLMを提案する。これはシームレスなトークンレベルの早期終了を実現する。River-LLMは、軽量なKV共有型終端リバー(KV-Shared Exit River)を導入し、バックボーンで欠如したKVキャッシュが終了プロセス中に自然に生成・保持されるようにすることで、コストの高い回復操作を不要とする。さらに、デコーダブロック内の状態遷移の類似性を利用して累積KV誤差を予測し、精度の高い終了判断を導出する。数学的推論およびコード生成タスクにおける大規模な実験により、River-LLMが高い生成品質を維持しつつ、実効的な速度を1.71倍から2.16倍向上させることを実証した。
English
Large Language Models (LLMs) have demonstrated exceptional performance across diverse domains but are increasingly constrained by high inference latency. Early Exit has emerged as a promising solution to accelerate inference by dynamically bypassing redundant layers. However, in decoder-only architectures, the efficiency of Early Exit is severely bottlenecked by the KV Cache Absence problem, where skipped layers fail to provide the necessary historical states for subsequent tokens. Existing solutions, such as recomputation or masking, either introduce significant latency overhead or incur severe precision loss, failing to bridge the gap between theoretical layer reduction and practical wall-clock speedup. In this paper, we propose River-LLM, a training-free framework that enables seamless token-level Early Exit. River-LLM introduces a lightweight KV-Shared Exit River that allows the backbone's missing KV cache to be naturally generated and preserved during the exit process, eliminating the need for costly recovery operations. Furthermore, we utilize state transition similarity within decoder blocks to predict cumulative KV errors and guide precise exit decisions. Extensive experiments on mathematical reasoning and code generation tasks demonstrate that River-LLM achieves 1.71 to 2.16 times of practical speedup while maintaining high generation quality.