ChatPaper.aiChatPaper

SpeContext: Abilitare il ragionamento efficiente su contesti lunghi mediante sparsità contestuale speculativa nei LLM

SpeContext: Enabling Efficient Long-context Reasoning with Speculative Context Sparsity in LLMs

November 30, 2025
Autori: Jiaming Xu, Jiayi Pan, Hanzhen Wang, Yongkang Zhou, Jiancai Ye, Yu Wang, Guohao Dai
cs.AI

Abstract

In questo articolo, evidenziamo come l'obiettivo degli algoritmi di retrieval sia allinearsi con l'LLM, obiettivo simile a quello della distillazione della conoscenza negli LLM. Analizziamo la similarità nella focalizzazione dell'informazione tra il modello linguistico distillato (DLM) e l'LLM originale dalla prospettiva della teoria dell'informazione, e proponiamo quindi un nuovo paradigma che utilizza un DLM come algoritmo di retrieval. Sulla base di questa intuizione, presentiamo SpeContext, una progettazione congiunta di algoritmo e sistema per il ragionamento a contesto lungo. (1) A livello algoritmico, SpeContext propone un modulo di retrieval leggero basato sui pesi di attenzione a livello di head del DLM, ottenendo una riduzione dei parametri >90% attraverso la potatura della ridondanza. (2) A livello di sistema, SpeContext progetta un flusso di dati di prelettura asincrono tramite una strategia di caricamento elastico, sovrapponendo efficacemente il retrieval della KV cache con il calcolo dell'LLM. (3) A livello di compilazione, SpeContext costruisce un modello di memoria teorico e implementa un sistema di gestione della memoria adattativo per ottenere accelerazione massimizzando l'utilizzo della memoria GPU. Distribuiamo e valutiamo SpeContext in due ambienti con risorse limitate, cloud e edge. Esperimenti estesi dimostrano che, rispetto al framework Huggingface, SpeContext raggiunge un miglioramento di throughput fino a 24.89x nel cloud e un'accelerazione di 10.06x nell'edge con una perdita di accuratezza trascurabile, spostando in avanti la frontiera di Pareto tra accuratezza e throughput.
English
In this paper, we point out that the objective of the retrieval algorithms is to align with the LLM, which is similar to the objective of knowledge distillation in LLMs. We analyze the similarity in information focus between the distilled language model(DLM) and the original LLM from the perspective of information theory, and thus propose a novel paradigm that leverages a DLM as the retrieval algorithm. Based on the insight, we present SpeContext, an algorithm and system co-design for long-context reasoning. (1) At the algorithm level, SpeContext proposes lightweight retrieval head based on the head-level attention weights of DLM, achieving > 90% parameters reduction by pruning the redundancy. (2) At the system level, SpeContext designs an asynchronous prefetch dataflow via the elastic loading strategy, effectively overlapping KV cache retrieval with the LLM computation. (3) At the compilation level, SpeContext constructs the theoretical memory model and implements an adaptive memory management system to achieve acceleration by maximizing GPU memory utilization. We deploy and evaluate SpeContext in two resourceconstrained environments, cloud and edge. Extensive experiments show that, compared with the Huggingface framework, SpeContext achieves up to 24.89x throughput improvement in cloud and 10.06x speedup in edge with negligible accuracy loss, pushing the Pareto frontier of accuracy and throughput.
PDF111December 3, 2025