River-LLM: Grande Modello Linguistico con Uscita Fluida Basata sulla Condivisione KV

Abstract

I Large Language Model (LLM) hanno dimostrato prestazioni eccezionali in diversi domini, ma sono sempre più limitati dall'elevata latenza di inferenza. L'Early Exit è emerso come una soluzione promettente per accelerare l'inferenza bypassando dinamicamente gli strati ridondanti. Tuttavia, nelle architetture decoder-only, l'efficienza dell'Early Exit è fortemente limitata dal problema dell'Assenza della KV Cache, in cui gli strati saltati non forniscono gli stati storici necessari per i token successivi. Le soluzioni esistenti, come la ricalcolo o il masking, introducono un sovraccarico di latenza significativo o comportano una grave perdita di precisione, non riuscendo a colmare il divario tra la riduzione teorica degli strati e l'accelerazione pratica. In questo articolo, proponiamo River-LLM, un framework senza training che abilita un Early Exit a livello di token senza interruzioni. River-LLM introduce un leggero Exit River a KV Condivisi che permette alla KV cache mancante del modello di base di essere generata e preservata naturalmente durante il processo di uscita, eliminando la necessità di costose operazioni di recupero. Inoltre, utilizziamo la similarità della transizione di stato all'interno dei blocchi decoder per prevedere gli errori cumulativi della KV e guidare decisioni di uscita precise. Esperimenti estesi su compiti di ragionamento matematico e generazione di codice dimostrano che River-LLM raggiunge un'accelerazione pratica da 1,71 a 2,16 volte mantenendo un'alta qualità di generazione.

English

Large Language Models (LLMs) have demonstrated exceptional performance across diverse domains but are increasingly constrained by high inference latency. Early Exit has emerged as a promising solution to accelerate inference by dynamically bypassing redundant layers. However, in decoder-only architectures, the efficiency of Early Exit is severely bottlenecked by the KV Cache Absence problem, where skipped layers fail to provide the necessary historical states for subsequent tokens. Existing solutions, such as recomputation or masking, either introduce significant latency overhead or incur severe precision loss, failing to bridge the gap between theoretical layer reduction and practical wall-clock speedup. In this paper, we propose River-LLM, a training-free framework that enables seamless token-level Early Exit. River-LLM introduces a lightweight KV-Shared Exit River that allows the backbone's missing KV cache to be naturally generated and preserved during the exit process, eliminating the need for costly recovery operations. Furthermore, we utilize state transition similarity within decoder blocks to predict cumulative KV errors and guide precise exit decisions. Extensive experiments on mathematical reasoning and code generation tasks demonstrate that River-LLM achieves 1.71 to 2.16 times of practical speedup while maintaining high generation quality.

River-LLM: Grande Modello Linguistico con Uscita Fluida Basata sulla Condivisione KV

River-LLM: Large Language Model Seamless Exit Based on KV Share

Abstract

Support