LightThinker++ : De la compression du raisonnement à la gestion de la mémoire

Résumé

Les grands modèles de langage (LLM) excellent dans le raisonnement complexe, mais leur efficacité est limitée par la charge cognitive croissante induite par les longues traces de raisonnement. Dans cet article, nous proposons LightThinker, une méthode permettant aux LLMs de compresser dynamiquement les pensées intermédiaires en représentations sémantiques compactes. Cependant, la compression statique peine souvent avec les raisonnements complexes où la perte irréversible de détails intermédiaires peut entraîner des goulots d'étranglement logiques. Pour résoudre ce problème, nous faisons évoluer le framework vers LightThinker++, en introduisant une Gestion Explicite et Adaptative de la Mémoire. Ce paradigme passe à une gestion au niveau comportemental en incorporant des primitives mémoire explicites, soutenues par un pipeline spécialisé de synthèse de trajectoires pour entraîner une planification mémoire intentionnelle. Des expériences approfondies démontrent la versatilité du framework selon trois dimensions. (1) LightThinker réduit l'utilisation maximale de tokens de 70 % et le temps d'inférence de 26 %, avec une perte de précision minime. (2) Dans le raisonnement standard, LightThinker++ réduit l'utilisation de tokens de pointe de 69,9 % tout en produisant un gain de précision de +2,42 % sous le même budget de contexte pour une performance maximale. (3) Plus notablement, dans les tâches agentiques à long terme, il maintient une empreinte stable au-delà de 80 tours (une réduction de 60 % à 70 %), obtenant un gain de performance moyen de 14,8 % sur différents scénarios complexes. Globalement, notre travail offre une direction évolutive pour maintenir un raisonnement profond des LLM sur des horizons étendus avec une surcharge minimale.

English

Large language models (LLMs) excel at complex reasoning, yet their efficiency is limited by the surging cognitive overhead of long thought traces. In this paper, we propose LightThinker, a method that enables LLMs to dynamically compress intermediate thoughts into compact semantic representations. However, static compression often struggles with complex reasoning where the irreversible loss of intermediate details can lead to logical bottlenecks. To address this, we evolve the framework into LightThinker++, introducing Explicit Adaptive Memory Management. This paradigm shifts to behavioral-level management by incorporating explicit memory primitives, supported by a specialized trajectory synthesis pipeline to train purposeful memory scheduling. Extensive experiments demonstrate the framework's versatility across three dimensions. (1) LightThinker reduces peak token usage by 70% and inference time by 26% with minimal accuracy loss. (2) In standard reasoning, LightThinker++ slashes peak token usage by 69.9% while yielding a +2.42% accuracy gain under the same context budget for maximum performance. (3) Most notably, in long-horizon agentic tasks, it maintains a stable footprint beyond 80 rounds (a 60%-70% reduction), achieving an average performance gain of 14.8% across different complex scenarios. Overall, our work provides a scalable direction for sustaining deep LLM reasoning over extended horizons with minimal overhead.

LightThinker++ : De la compression du raisonnement à la gestion de la mémoire

LightThinker++: From Reasoning Compression to Memory Management

Résumé

Support