Compressione del Percorso di Ragionamento: Compattare le Traiettorie di Generazione per un Ragionamento Efficiente nei Modelli Linguistici di Grande Dimensione

Abstract

I recenti modelli linguistici focalizzati sul ragionamento raggiungono un'elevata accuratezza generando percorsi di ragionamento intermedi estesi prima di produrre risposte finali. Sebbene questo approccio sia efficace nel risolvere problemi che richiedono pensiero logico, i lunghi percorsi di ragionamento aumentano significativamente l'uso della memoria e il throughput della generazione di token, limitando il dispiegamento pratico di tali modelli. Proponiamo la Compressione del Percorso di Ragionamento (RPC), un metodo senza addestramento che accelera l'inferenza sfruttando la sparsità semantica dei percorsi di ragionamento. RPC comprime periodicamente la cache KV mantenendo le cache KV che ricevono un punteggio di importanza elevato, calcolato utilizzando una finestra selettrice composta da query generate di recente. Gli esperimenti mostrano che RPC migliora il throughput di generazione di QwQ-32B fino a 1,60 volte rispetto all'inferenza con la cache KV completa, con un calo di accuratezza dell'1,2% sul benchmark AIME 2024. I nostri risultati dimostrano che la sparsità semantica nelle tracce di ragionamento può essere efficacemente sfruttata per la compressione, offrendo un percorso pratico verso il dispiegamento efficiente di modelli linguistici di ragionamento. Il nostro codice è disponibile all'indirizzo https://github.com/jiwonsong-dev/ReasoningPathCompression.

English

Recent reasoning-focused language models achieve high accuracy by generating lengthy intermediate reasoning paths before producing final answers. While this approach is effective in solving problems that require logical thinking, long reasoning paths significantly increase memory usage and throughput of token generation, limiting the practical deployment of such models. We propose Reasoning Path Compression (RPC), a training-free method that accelerates inference by leveraging the semantic sparsity of reasoning paths. RPC periodically compresses the KV cache by retaining KV cache that receive high importance score, which are computed using a selector window composed of recently generated queries. Experiments show that RPC improves generation throughput of QwQ-32B by up to 1.60times compared to the inference with full KV cache, with an accuracy drop of 1.2% on the AIME 2024 benchmark. Our findings demonstrate that semantic sparsity in reasoning traces can be effectively exploited for compression, offering a practical path toward efficient deployment of reasoning LLMs. Our code is available at https://github.com/jiwonsong-dev/ReasoningPathCompression.

Compressione del Percorso di Ragionamento: Compattare le Traiettorie di Generazione per un Ragionamento Efficiente nei Modelli Linguistici di Grande Dimensione

Reasoning Path Compression: Compressing Generation Trajectories for Efficient LLM Reasoning

Abstract

Support