River-LLM: Saída Contínua de Modelos de Linguagem Grandes Baseada em Compartilhamento KV

Resumo

Os Grandes Modelos de Linguagem (LLMs) demonstraram desempenho excecional em diversos domínios, mas estão cada vez mais limitados pela elevada latência de inferência. A Saída Antecipada (Early Exit) surgiu como uma solução promissora para acelerar a inferência, contornando dinamicamente camadas redundantes. No entanto, em arquiteturas apenas de descodificação (decoder-only), a eficiência da Saída Antecipada é severamente limitada pelo problema da Ausência de Cache KV (KV Cache Absence), em que as camadas ignoradas não conseguem fornecer os estados históricos necessários para os tokens subsequentes. As soluções existentes, como a recomputação ou a mascaragem (masking), ou introduzem uma sobrecarga de latência significativa ou acarretam uma perda severa de precisão, não conseguindo colmatar o fosso entre a redução teórica de camadas e a aceleração prática em tempo real (wall-clock speedup). Neste artigo, propomos o River-LLM, uma estrutura (framework) isenta de treino (training-free) que permite uma Saída Antecipada perfeita ao nível do token. O River-LLM introduz um leve "Rio de Saída" de KV Partilhado (KV-Shared Exit River) que permite que a cache KV em falta do modelo principal (backbone) seja naturalmente gerada e preservada durante o processo de saída, eliminando a necessidade de operações de recuperação dispendiosas. Além disso, utilizamos a semelhança da transição de estado (state transition similarity) dentro dos blocos do descodificador para prever erros cumulativos de KV e orientar decisões de saída precisas. Experiências extensivas em tarefas de raciocínio matemático e geração de código demonstram que o River-LLM atinge uma aceleração prática de 1,71 a 2,16 vezes, mantendo uma alta qualidade de geração.

English

Large Language Models (LLMs) have demonstrated exceptional performance across diverse domains but are increasingly constrained by high inference latency. Early Exit has emerged as a promising solution to accelerate inference by dynamically bypassing redundant layers. However, in decoder-only architectures, the efficiency of Early Exit is severely bottlenecked by the KV Cache Absence problem, where skipped layers fail to provide the necessary historical states for subsequent tokens. Existing solutions, such as recomputation or masking, either introduce significant latency overhead or incur severe precision loss, failing to bridge the gap between theoretical layer reduction and practical wall-clock speedup. In this paper, we propose River-LLM, a training-free framework that enables seamless token-level Early Exit. River-LLM introduces a lightweight KV-Shared Exit River that allows the backbone's missing KV cache to be naturally generated and preserved during the exit process, eliminating the need for costly recovery operations. Furthermore, we utilize state transition similarity within decoder blocks to predict cumulative KV errors and guide precise exit decisions. Extensive experiments on mathematical reasoning and code generation tasks demonstrate that River-LLM achieves 1.71 to 2.16 times of practical speedup while maintaining high generation quality.

River-LLM: Saída Contínua de Modelos de Linguagem Grandes Baseada em Compartilhamento KV

River-LLM: Large Language Model Seamless Exit Based on KV Share

Resumo

Support