LightThinker++: Dalla compressione del ragionamento alla gestione della memoria
LightThinker++: From Reasoning Compression to Memory Management
April 4, 2026
Autori: Yuqi Zhu, Jintian Zhang, Zhenjie Wan, Yujie Luo, Shuofei Qiao, Zhengke Gui, Da Zheng, Lei Liang, Huajun Chen, Ningyu Zhang
cs.AI
Abstract
I grandi modelli linguistici (LLM) eccellono nel ragionamento complesso, ma la loro efficienza è limitata dal crescente sovraccarico cognitivo delle lunghe tracce di pensiero. In questo articolo, proponiamo LightThinker, un metodo che consente agli LLM di comprimere dinamicamente i pensieri intermedi in rappresentazioni semantiche compatte. Tuttavia, la compressione statica spesso incontra difficoltà con il ragionamento complesso, dove la perdita irreversibile dei dettagli intermedi può portare a colli di bottiglia logici. Per affrontare questo problema, evolviamo il framework in LightThinker++, introducendo la Gestione Esplicita Adattativa della Memoria. Questo paradigma passa a una gestione a livello comportamentale incorporando primitive di memoria esplicite, supportate da una pipeline specializzata di sintesi delle traiettorie per addestrare una pianificazione della memoria finalizzata. Esperimenti estesi dimostrano la versatilità del framework lungo tre dimensioni. (1) LightThinker riduce l'utilizzo massimo di token del 70% e il tempo di inferenza del 26% con una perdita di accuratezza minima. (2) Nel ragionamento standard, LightThinker++ riduce l'utilizzo massimo di token del 69,9% producendo al contempo un guadagno di accuratezza del +2,42% a parità di budget di contesto per le massime prestazioni. (3) Soprattutto, nei compiti agentivi a lungo termine, mantiene un'impronta stabile oltre 80 round (una riduzione del 60%-70%), raggiungendo un guadagno prestazionale medio del 14,8% in diversi scenari complessi. Nel complesso, il nostro lavoro fornisce una direzione scalabile per sostenere il ragionamento profondo degli LLM su orizzonti estesi con un sovraccarico minimo.
English
Large language models (LLMs) excel at complex reasoning, yet their efficiency is limited by the surging cognitive overhead of long thought traces. In this paper, we propose LightThinker, a method that enables LLMs to dynamically compress intermediate thoughts into compact semantic representations. However, static compression often struggles with complex reasoning where the irreversible loss of intermediate details can lead to logical bottlenecks. To address this, we evolve the framework into LightThinker++, introducing Explicit Adaptive Memory Management. This paradigm shifts to behavioral-level management by incorporating explicit memory primitives, supported by a specialized trajectory synthesis pipeline to train purposeful memory scheduling. Extensive experiments demonstrate the framework's versatility across three dimensions. (1) LightThinker reduces peak token usage by 70% and inference time by 26% with minimal accuracy loss. (2) In standard reasoning, LightThinker++ slashes peak token usage by 69.9% while yielding a +2.42% accuracy gain under the same context budget for maximum performance. (3) Most notably, in long-horizon agentic tasks, it maintains a stable footprint beyond 80 rounds (a 60%-70% reduction), achieving an average performance gain of 14.8% across different complex scenarios. Overall, our work provides a scalable direction for sustaining deep LLM reasoning over extended horizons with minimal overhead.