LightThinker++: Von der Komprimierung von Denkprozessen zur Speicherverwaltung
LightThinker++: From Reasoning Compression to Memory Management
April 4, 2026
Autoren: Yuqi Zhu, Jintian Zhang, Zhenjie Wan, Yujie Luo, Shuofei Qiao, Zhengke Gui, Da Zheng, Lei Liang, Huajun Chen, Ningyu Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeichnen sich durch komplexe Denkfähigkeiten aus, doch ihre Effizienz wird durch den steigenden kognitiven Overhead langer Gedankenspuren begrenzt. In diesem Artikel stellen wir LightThinker vor, eine Methode, die es LLMs ermöglicht, Zwischendanken dynamisch in kompakte semantische Repräsentationen zu komprimieren. Statische Komprimierung stößt jedoch bei komplexen Denkaufgaben oft an Grenzen, wo der irreversible Verlust von Zwischendetails zu logischen Engpässen führen kann. Um dies zu adressieren, entwickeln wir das Framework zu LightThinker++ weiter und führen Explicit Adaptive Memory Management ein. Dieses Paradigma wechselt zur Verhaltenssteuerung durch die Integration expliziter Speicherprimitive, unterstützt durch eine spezialisierte Trajektoriensynthese-Pipeline zum Training zweckgerichteter Speicherplanung. Umfangreiche Experimente belegen die Vielseitigkeit des Frameworks in drei Dimensionen: (1) LightThinker reduziert die maximale Token-Nutzung um 70 % und die Inferenzzeit um 26 % bei minimalem Genauigkeitsverlust. (2) Im Standardreasoning senkt LightThinker++ die Spitzentoken-Nutzung um 69,9 % und erzielt gleichzeitig einen Genauigkeitszuwachs von +2,42 % bei gleichem Kontextbudget für maximale Leistung. (3) Besonders bemerkenswert ist, dass es bei langfristigen Agentenaufgaben über 80 Runden hinweg einen stabilen Footprint beibehält (eine Reduktion um 60–70 %) und durchschnittlich eine Leistungssteigerung von 14,8 % über verschiedene komplexe Szenarien hinweg erreicht. Insgesamt bietet unsere Arbeit eine skalierbare Richtung zur Aufrechterhaltung tiefgehender LLM-Denkfähigkeiten über längere Horizonte mit minimalem Overhead.
English
Large language models (LLMs) excel at complex reasoning, yet their efficiency is limited by the surging cognitive overhead of long thought traces. In this paper, we propose LightThinker, a method that enables LLMs to dynamically compress intermediate thoughts into compact semantic representations. However, static compression often struggles with complex reasoning where the irreversible loss of intermediate details can lead to logical bottlenecks. To address this, we evolve the framework into LightThinker++, introducing Explicit Adaptive Memory Management. This paradigm shifts to behavioral-level management by incorporating explicit memory primitives, supported by a specialized trajectory synthesis pipeline to train purposeful memory scheduling. Extensive experiments demonstrate the framework's versatility across three dimensions. (1) LightThinker reduces peak token usage by 70% and inference time by 26% with minimal accuracy loss. (2) In standard reasoning, LightThinker++ slashes peak token usage by 69.9% while yielding a +2.42% accuracy gain under the same context budget for maximum performance. (3) Most notably, in long-horizon agentic tasks, it maintains a stable footprint beyond 80 rounds (a 60%-70% reduction), achieving an average performance gain of 14.8% across different complex scenarios. Overall, our work provides a scalable direction for sustaining deep LLM reasoning over extended horizons with minimal overhead.