LightThinker++: от сжатия рассуждений к управлению памятью

Аннотация

Крупные языковые модели (LLMs) демонстрируют превосходные способности к сложным рассуждениям, однако их эффективность ограничивается растущими когнитивными затратами на обработку длинных цепочек мыслей. В данной статье мы предлагаем метод LightThinker, который позволяет LLM динамически сжимать промежуточные мысли в компактные семантические представления. Однако статическое сжатие часто оказывается неэффективным при сложных рассуждениях, где необратимая потеря промежуточных деталей может приводить к логическим тупикам. Для решения этой проблемы мы развиваем фреймворк до LightThinker++, вводя механизм явного адаптивного управления памятью. Эта парадигма переходит к управлению на поведенческом уровне за счет включения явных примитивов памяти, поддерживаемых специализированным конвейером синтеза траекторий для обучения целенаправленному планированию работы с памятью. Многочисленные эксперименты демонстрируют универсальность фреймворка по трем направлениям. (1) LightThinker сокращает пиковое использование токенов на 70% и время вывода на 26% при минимальной потере точности. (2) В стандартных задачах рассуждений LightThinker++ снижает пиковое использование токенов на 69,9%, одновременно повышая точность на +2,42% при том же бюджетe контекста для достижения максимальной производительности. (3) Наиболее важно, что в долгосрочных агентских задачах он сохраняет стабильный объем памяти после 80 раундов (сокращение на 60-70%), достигая среднего прироста производительности на 14,8% в различных сложных сценариях. В целом, наша работа предлагает масштабируемое направление для поддержания глубоких рассуждений LLM на протяженных горизонтах с минимальными накладными расходами.

English

Large language models (LLMs) excel at complex reasoning, yet their efficiency is limited by the surging cognitive overhead of long thought traces. In this paper, we propose LightThinker, a method that enables LLMs to dynamically compress intermediate thoughts into compact semantic representations. However, static compression often struggles with complex reasoning where the irreversible loss of intermediate details can lead to logical bottlenecks. To address this, we evolve the framework into LightThinker++, introducing Explicit Adaptive Memory Management. This paradigm shifts to behavioral-level management by incorporating explicit memory primitives, supported by a specialized trajectory synthesis pipeline to train purposeful memory scheduling. Extensive experiments demonstrate the framework's versatility across three dimensions. (1) LightThinker reduces peak token usage by 70% and inference time by 26% with minimal accuracy loss. (2) In standard reasoning, LightThinker++ slashes peak token usage by 69.9% while yielding a +2.42% accuracy gain under the same context budget for maximum performance. (3) Most notably, in long-horizon agentic tasks, it maintains a stable footprint beyond 80 rounds (a 60%-70% reduction), achieving an average performance gain of 14.8% across different complex scenarios. Overall, our work provides a scalable direction for sustaining deep LLM reasoning over extended horizons with minimal overhead.

LightThinker++: от сжатия рассуждений к управлению памятью

LightThinker++: From Reasoning Compression to Memory Management

Аннотация

Support