Разгон рассуждений в языковых моделях: мониторинг и управление длиной путей мышления в LLM
Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs
June 8, 2025
Авторы: Roy Eisenstadt, Itamar Zimerman, Lior Wolf
cs.AI
Аннотация
В последнее время такие методы, как явное структурированное рассуждение, продемонстрировали сильное масштабирование на этапе тестирования за счёт разделения внутреннего процесса "мышления" модели и её окончательного ответа. Ключевым фактором, влияющим на качество ответа в этом контексте, является продолжительность этапа мышления. Если рассуждение слишком короткое, модель может не справиться с сложностью задачи. С другой стороны, если оно слишком длинное, модель может "передумать", что приведёт к избыточным вычислениям и ухудшению производительности. В данной статье исследуются и используются механизмы, с помощью которых крупные языковые модели (LLM) понимают и регулируют продолжительность своих рассуждений в процессе явного мышления. Во-первых, мы показываем, что LLM кодируют свой прогресс в процессе рассуждения, и представляем интерактивную визуализацию в виде прогресс-бара, которая используется для анализа динамики планирования модели. Во-вторых, мы манипулируем внутренним кодированием прогресса на этапе вывода, чтобы сократить ненужные шаги и сформировать более лаконичную и решительную цепочку мыслей. Наши эмпирические результаты показывают, что этот метод "разгона" смягчает проблему передумывания, повышает точность ответов и снижает задержку вывода. Наш код доступен публично.
English
Recently, techniques such as explicit structured reasoning have demonstrated
strong test-time scaling behavior by enforcing a separation between the model's
internal "thinking" process and the final response. A key factor influencing
answer quality in this setting is the length of the thinking stage. When the
reasoning is too short, the model may fail to capture the complexity of the
task. Conversely, when it is too long, the model may overthink, leading to
unnecessary computation and degraded performance. This paper explores and
exploits the underlying mechanisms by which LLMs understand and regulate the
length of their reasoning during explicit thought processes. First, we show
that LLMs encode their progress through the reasoning process and introduce an
interactive progress bar visualization, which is then used to reveal insights
on the model's planning dynamics. Second, we manipulate the internal progress
encoding during inference to reduce unnecessary steps and generate a more
concise and decisive chain of thoughts. Our empirical results demonstrate that
this "overclocking" method mitigates overthinking, improves answer accuracy,
and reduces inference latency. Our code is publicly available.