LightThinker++: Van Redeneercompressie naar Geheugenbeheer

Samenvatting

Grote taalmodellen (LLM's) blinken uit in complex redeneren, maar hun efficiëntie wordt beperkt door de oplopende cognitieve belasting van lange gedachtesporen. In dit artikel presenteren we LightThinker, een methode waarmee LLM's dynamisch tussenliggende gedachten kunnen comprimeren tot compacte semantische representaties. Statische compressie worstelt echter vaak met complex redeneren, waarbij het onomkeerbare verlies van tussenliggende details kan leiden tot logische knelpunten. Om dit aan te pakken, evolueren we het framework naar LightThinker++, waarbij we Expliciet Adaptief Geheugenbeheer introduceren. Dit paradigma verschuift naar beheersing op gedragsniveau door expliciete geheugenprimitieven te incorporeren, ondersteund door een gespecialiseerde traject-synthesepijplijn om doelgericht geheugenplannen te trainen. Uitgebreide experimenten demonstreren de veelzijdigheid van het framework op drie dimensies. (1) LightThinker reduceert het piek-tokenverbruik met 70% en de inferentietijd met 26% met minimaal nauwkeurigheidsverlies. (2) In standaard redeneertaken reduceert LightThinker++ het piek-tokenverbruik met 69,9% en levert het een nauwkeurigheidswinst van +2,42% op binnen hetzelfde contextbudget voor maximale prestaties. (3) Het meest opmerkelijk is dat het in langetermijn-agenttaken een stabiele footprint behoudt voorbij 80 rondes (een reductie van 60%-70%), met een gemiddelde prestatieverbetering van 14,8% over verschillende complexe scenario's. Al met al biedt ons werk een schaalbare richting voor het volhouden van diep LLM-redeneren over langere horizonnen met minimale overhead.

English

Large language models (LLMs) excel at complex reasoning, yet their efficiency is limited by the surging cognitive overhead of long thought traces. In this paper, we propose LightThinker, a method that enables LLMs to dynamically compress intermediate thoughts into compact semantic representations. However, static compression often struggles with complex reasoning where the irreversible loss of intermediate details can lead to logical bottlenecks. To address this, we evolve the framework into LightThinker++, introducing Explicit Adaptive Memory Management. This paradigm shifts to behavioral-level management by incorporating explicit memory primitives, supported by a specialized trajectory synthesis pipeline to train purposeful memory scheduling. Extensive experiments demonstrate the framework's versatility across three dimensions. (1) LightThinker reduces peak token usage by 70% and inference time by 26% with minimal accuracy loss. (2) In standard reasoning, LightThinker++ slashes peak token usage by 69.9% while yielding a +2.42% accuracy gain under the same context budget for maximum performance. (3) Most notably, in long-horizon agentic tasks, it maintains a stable footprint beyond 80 rounds (a 60%-70% reduction), achieving an average performance gain of 14.8% across different complex scenarios. Overall, our work provides a scalable direction for sustaining deep LLM reasoning over extended horizons with minimal overhead.

LightThinker++: Van Redeneercompressie naar Geheugenbeheer

LightThinker++: From Reasoning Compression to Memory Management

Samenvatting

Support