LightThinker++: De la Compresión del Razonamiento a la Gestión de la Memoria
LightThinker++: From Reasoning Compression to Memory Management
April 4, 2026
Autores: Yuqi Zhu, Jintian Zhang, Zhenjie Wan, Yujie Luo, Shuofei Qiao, Zhengke Gui, Da Zheng, Lei Liang, Huajun Chen, Ningyu Zhang
cs.AI
Resumen
Los modelos de lenguaje grandes (LLM) sobresalen en el razonamiento complejo, pero su eficiencia se ve limitada por la creciente carga cognitiva de las largas trazas de pensamiento. En este artículo, proponemos LightThinker, un método que permite a los LLM comprimir dinámicamente pensamientos intermedios en representaciones semánticas compactas. Sin embargo, la compresión estática a menudo lucha con el razonamiento complejo, donde la pérdida irreversible de detalles intermedios puede conducir a cuellos de botella lógicos. Para abordar esto, evolucionamos el marco hacia LightThinker++, introduciendo una Gestión Explícita y Adaptativa de la Memoria. Este paradigma cambia hacia una gestión a nivel conductual mediante la incorporación de primitivas de memoria explícitas, respaldadas por una canalización especializada de síntesis de trayectorias para entrenar una planificación de memoria con propósito. Experimentos exhaustivos demuestran la versatilidad del marco en tres dimensiones. (1) LightThinker reduce el uso máximo de tokens en un 70% y el tiempo de inferencia en un 26% con una pérdida mínima de precisión. (2) En el razonamiento estándar, LightThinker++ reduce el uso máximo de tokens en un 69.9% mientras produce una ganancia de precisión de +2.42% bajo el mismo presupuesto de contexto para el máximo rendimiento. (3) Más notablemente, en tareas agentales de largo horizonte, mantiene una huella estable más allá de 80 rondas (una reducción del 60%-70%), logrando una ganancia de rendimiento promedio del 14.8% en diferentes escenarios complejos. En general, nuestro trabajo proporciona una dirección escalable para sostener el razonamiento profundo de los LLM en horizontes extendidos con una sobrecarga mínima.
English
Large language models (LLMs) excel at complex reasoning, yet their efficiency is limited by the surging cognitive overhead of long thought traces. In this paper, we propose LightThinker, a method that enables LLMs to dynamically compress intermediate thoughts into compact semantic representations. However, static compression often struggles with complex reasoning where the irreversible loss of intermediate details can lead to logical bottlenecks. To address this, we evolve the framework into LightThinker++, introducing Explicit Adaptive Memory Management. This paradigm shifts to behavioral-level management by incorporating explicit memory primitives, supported by a specialized trajectory synthesis pipeline to train purposeful memory scheduling. Extensive experiments demonstrate the framework's versatility across three dimensions. (1) LightThinker reduces peak token usage by 70% and inference time by 26% with minimal accuracy loss. (2) In standard reasoning, LightThinker++ slashes peak token usage by 69.9% while yielding a +2.42% accuracy gain under the same context budget for maximum performance. (3) Most notably, in long-horizon agentic tasks, it maintains a stable footprint beyond 80 rounds (a 60%-70% reduction), achieving an average performance gain of 14.8% across different complex scenarios. Overall, our work provides a scalable direction for sustaining deep LLM reasoning over extended horizons with minimal overhead.