LightThinker: Compressione Pensando Passo-Passo

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni notevoli in compiti di ragionamento complesso, ma la loro efficienza è limitata dai costi significativi in termini di memoria e calcolo associati alla generazione di token di lunga durata. In questo articolo, proponiamo LightThinker, un metodo innovativo che consente ai LLM di comprimere dinamicamente i pensieri intermedi durante il ragionamento. Ispirato dai processi cognitivi umani, LightThinker comprime i passaggi verbosi dei pensieri in rappresentazioni compatte e scarta le catene di ragionamento originali, riducendo così significativamente il numero di token memorizzati nella finestra contestuale. Questo risultato è ottenuto addestrando il modello su quando e come eseguire la compressione attraverso la costruzione di dati, mappando gli stati nascosti a token sintetici condensati e creando maschere di attenzione specializzate. Inoltre, introduciamo la metrica di Dipendenza (Dep) per quantificare il grado di compressione misurando la dipendenza dai token storici durante la generazione. Esperimenti estesi su quattro dataset e due modelli dimostrano che LightThinker riduce l'utilizzo di memoria di picco e il tempo di inferenza, mantenendo un'accuratezza competitiva. Il nostro lavoro fornisce una nuova direzione per migliorare l'efficienza dei LLM in compiti di ragionamento complesso senza sacrificare le prestazioni. Il codice sarà rilasciato all'indirizzo https://github.com/zjunlp/LightThinker.

English

Large language models (LLMs) have shown remarkable performance in complex reasoning tasks, but their efficiency is hindered by the substantial memory and computational costs associated with generating lengthy tokens. In this paper, we propose LightThinker, a novel method that enables LLMs to dynamically compress intermediate thoughts during reasoning. Inspired by human cognitive processes, LightThinker compresses verbose thought steps into compact representations and discards the original reasoning chains, thereby significantly reducing the number of tokens stored in the context window. This is achieved by training the model on when and how to perform compression through data construction, mapping hidden states to condensed gist tokens, and creating specialized attention masks. Additionally, we introduce the Dependency (Dep) metric to quantify the degree of compression by measuring the reliance on historical tokens during generation. Extensive experiments on four datasets and two models show that LightThinker reduces peak memory usage and inference time, while maintaining competitive accuracy. Our work provides a new direction for improving the efficiency of LLMs in complex reasoning tasks without sacrificing performance. Code will be released at https://github.com/zjunlp/LightThinker.

LightThinker: Compressione Pensando Passo-Passo

LightThinker: Thinking Step-by-Step Compression

Abstract

Support