ChatPaper.aiChatPaper

LightThinker++:推論の圧縮からメモリ管理へ

LightThinker++: From Reasoning Compression to Memory Management

April 4, 2026
著者: Yuqi Zhu, Jintian Zhang, Zhenjie Wan, Yujie Luo, Shuofei Qiao, Zhengke Gui, Da Zheng, Lei Liang, Huajun Chen, Ningyu Zhang
cs.AI

要旨

大規模言語モデル(LLM)は複雑な推論において優れた性能を発揮するが、長大な思考トレースに伴う急増する認知的オーバーヘッドによって効率性が制限されている。本論文では、LLMが中間思考を動的に圧縮し、コンパクトな意味表現を生成する手法LightThinkerを提案する。しかし、静的な圧縮手法は複雑な推論タスクでは十分に対応できず、中間詳細情報の不可逆的な損失が論理的ボトルネックを引き起こす可能性がある。この課題を解決するため、明示的適応型メモリ管理を導入したLightThinker++へとフレームワークを進化させた。このパラダイムは、専用の軌道合成パイプラインによって支援される明示的メモリプリミティブを組み込むことで、行動レベルの管理へと転換し、目的指向のメモリスケジューリングを学習する。大規模な実験により、本フレームワークの3次元にわたる汎用性が実証された。(1) LightThinkerはピークトークン使用量を70%、推論時間を26%削減し、精度低下を最小限に抑えた。(2) 標準推論タスクでは、LightThinker++がピークトークン使用量を69.9%削減すると同時に、同一コンテキスト制約下で最大性能を達成するために+2.42%の精度向上をもたらした。(3) 特に注目すべきは、長期的エージェントタスクにおいて、80ラウンド超えても安定したメモリ使用量(60%-70%削減)を維持し、様々な複雑シナリオで平均14.8%の性能向上を達成した点である。総合的に、本研究は最小限のオーバーヘッドで拡張された時間軸にわたる深いLLM推論を持続するためのスケーラブルな方向性を示している。
English
Large language models (LLMs) excel at complex reasoning, yet their efficiency is limited by the surging cognitive overhead of long thought traces. In this paper, we propose LightThinker, a method that enables LLMs to dynamically compress intermediate thoughts into compact semantic representations. However, static compression often struggles with complex reasoning where the irreversible loss of intermediate details can lead to logical bottlenecks. To address this, we evolve the framework into LightThinker++, introducing Explicit Adaptive Memory Management. This paradigm shifts to behavioral-level management by incorporating explicit memory primitives, supported by a specialized trajectory synthesis pipeline to train purposeful memory scheduling. Extensive experiments demonstrate the framework's versatility across three dimensions. (1) LightThinker reduces peak token usage by 70% and inference time by 26% with minimal accuracy loss. (2) In standard reasoning, LightThinker++ slashes peak token usage by 69.9% while yielding a +2.42% accuracy gain under the same context budget for maximum performance. (3) Most notably, in long-horizon agentic tasks, it maintains a stable footprint beyond 80 rounds (a 60%-70% reduction), achieving an average performance gain of 14.8% across different complex scenarios. Overall, our work provides a scalable direction for sustaining deep LLM reasoning over extended horizons with minimal overhead.
PDF240April 8, 2026