LightThinker++: Da Compressão de Raciocínio ao Gerenciamento de Memória
LightThinker++: From Reasoning Compression to Memory Management
April 4, 2026
Autores: Yuqi Zhu, Jintian Zhang, Zhenjie Wan, Yujie Luo, Shuofei Qiao, Zhengke Gui, Da Zheng, Lei Liang, Huajun Chen, Ningyu Zhang
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) destacam-se no raciocínio complexo, mas sua eficiência é limitada pelo custo cognitivo crescente de longos traços de pensamento. Neste artigo, propomos o LightThinker, um método que permite aos LLMs comprimir dinamicamente pensamentos intermediários em representações semânticas compactas. No entanto, a compressão estática frequentemente enfrenta dificuldades em raciocínios complexos, onde a perda irreversível de detalhes intermediários pode levar a gargalos lógicos. Para resolver isso, evoluímos a estrutura para o LightThinker++, introduzindo o Gerenciamento Explícito e Adaptativo de Memória. Este paradigma muda para um gerenciamento em nível comportamental, incorporando primitivas de memória explícitas, apoiadas por um pipeline especializado de síntese de trajetórias para treinar um agendamento de memória intencional. Experimentos extensivos demonstram a versatilidade da estrutura em três dimensões. (1) O LightThinker reduz o uso máximo de tokens em 70% e o tempo de inferência em 26% com perda mínima de precisão. (2) No raciocínio padrão, o LightThinker++ reduz o uso máximo de tokens em 69,9% enquanto proporciona um ganho de precisão de +2,42% sob o mesmo orçamento de contexto para máximo desempenho. (3) Mais notavelmente, em tarefas agentivas de longo horizonte, mantém uma pegada estável além de 80 rodadas (uma redução de 60%-70%), alcançando um ganho médio de desempenho de 14,8% em diferentes cenários complexos. No geral, nosso trabalho fornece uma direção escalável para sustentar o raciocínio profundo de LLMs em horizontes estendidos com sobrecarga mínima.
English
Large language models (LLMs) excel at complex reasoning, yet their efficiency is limited by the surging cognitive overhead of long thought traces. In this paper, we propose LightThinker, a method that enables LLMs to dynamically compress intermediate thoughts into compact semantic representations. However, static compression often struggles with complex reasoning where the irreversible loss of intermediate details can lead to logical bottlenecks. To address this, we evolve the framework into LightThinker++, introducing Explicit Adaptive Memory Management. This paradigm shifts to behavioral-level management by incorporating explicit memory primitives, supported by a specialized trajectory synthesis pipeline to train purposeful memory scheduling. Extensive experiments demonstrate the framework's versatility across three dimensions. (1) LightThinker reduces peak token usage by 70% and inference time by 26% with minimal accuracy loss. (2) In standard reasoning, LightThinker++ slashes peak token usage by 69.9% while yielding a +2.42% accuracy gain under the same context budget for maximum performance. (3) Most notably, in long-horizon agentic tasks, it maintains a stable footprint beyond 80 rounds (a 60%-70% reduction), achieving an average performance gain of 14.8% across different complex scenarios. Overall, our work provides a scalable direction for sustaining deep LLM reasoning over extended horizons with minimal overhead.