LightThinker: Compressione Pensando Passo-Passo
LightThinker: Thinking Step-by-Step Compression
February 21, 2025
Autori: Jintian Zhang, Yuqi Zhu, Mengshu Sun, Yujie Luo, Shuofei Qiao, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni notevoli in compiti di ragionamento complesso, ma la loro efficienza è limitata dai costi significativi in termini di memoria e calcolo associati alla generazione di token di lunga durata. In questo articolo, proponiamo LightThinker, un metodo innovativo che consente ai LLM di comprimere dinamicamente i pensieri intermedi durante il ragionamento. Ispirato dai processi cognitivi umani, LightThinker comprime i passaggi verbosi dei pensieri in rappresentazioni compatte e scarta le catene di ragionamento originali, riducendo così significativamente il numero di token memorizzati nella finestra contestuale. Questo risultato è ottenuto addestrando il modello su quando e come eseguire la compressione attraverso la costruzione di dati, mappando gli stati nascosti a token sintetici condensati e creando maschere di attenzione specializzate. Inoltre, introduciamo la metrica di Dipendenza (Dep) per quantificare il grado di compressione misurando la dipendenza dai token storici durante la generazione. Esperimenti estesi su quattro dataset e due modelli dimostrano che LightThinker riduce l'utilizzo di memoria di picco e il tempo di inferenza, mantenendo un'accuratezza competitiva. Il nostro lavoro fornisce una nuova direzione per migliorare l'efficienza dei LLM in compiti di ragionamento complesso senza sacrificare le prestazioni. Il codice sarà rilasciato all'indirizzo https://github.com/zjunlp/LightThinker.
English
Large language models (LLMs) have shown remarkable performance in complex
reasoning tasks, but their efficiency is hindered by the substantial memory and
computational costs associated with generating lengthy tokens. In this paper,
we propose LightThinker, a novel method that enables LLMs to dynamically
compress intermediate thoughts during reasoning. Inspired by human cognitive
processes, LightThinker compresses verbose thought steps into compact
representations and discards the original reasoning chains, thereby
significantly reducing the number of tokens stored in the context window. This
is achieved by training the model on when and how to perform compression
through data construction, mapping hidden states to condensed gist tokens, and
creating specialized attention masks. Additionally, we introduce the Dependency
(Dep) metric to quantify the degree of compression by measuring the reliance on
historical tokens during generation. Extensive experiments on four datasets and
two models show that LightThinker reduces peak memory usage and inference time,
while maintaining competitive accuracy. Our work provides a new direction for
improving the efficiency of LLMs in complex reasoning tasks without sacrificing
performance. Code will be released at https://github.com/zjunlp/LightThinker.