ChatPaper.aiChatPaper

Исправление мыслительных процессов больших языковых моделей с точки зрения оптимизации

Rectifying LLM Thought from Lens of Optimization

December 1, 2025
Авторы: Junnan Liu, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI

Аннотация

Последние достижения в области больших языковых моделей (LLM) обусловлены их возникающими способностями к рассуждению, особенно благодаря длинным цепочкам мыслей (CoT), которые обеспечивают тщательное исследование и обдумывание. Несмотря на эти успехи, LLM с длинными CoT часто демонстрируют неоптимальное поведение при рассуждениях, такое как излишнее усложнение и чрезмерно затянутые цепочки рассуждений, что может ухудшать производительность. В данной статье мы анализируем процессы рассуждений через призму оптимизации, представляя CoT как процедуру градиентного спуска, где каждый шаг рассуждения представляет собой обновление в направлении решения задачи. Основываясь на этой перспективе, мы представляем RePro (Rectifying Process-level Reward) — новый подход к улучшению рассуждений LLM на этапе пост-обучения. RePro определяет суррогатную целевую функцию для оценки процесса оптимизации, лежащего в основе CoT, используя двойной механизм оценки для количественного определения его интенсивности и стабильности. Эти оценки агрегируются в составную награду на уровне процесса, которая бесшовно интегрируется в конвейеры обучения с подкреплением с верифицируемыми наградами (RLVR) для оптимизации LLM. Многочисленные эксперименты с различными алгоритмами обучения с подкреплением и разнообразными LLM, оцененные на наборах данных по математике, естественным наукам и программированию, демонстрируют, что RePro последовательно улучшает производительность рассуждений и смягчает проявление неоптимального поведения.
English
Recent advancements in large language models (LLMs) have been driven by their emergent reasoning capabilities, particularly through long chain-of-thought (CoT) prompting, which enables thorough exploration and deliberation. Despite these advances, long-CoT LLMs often exhibit suboptimal reasoning behaviors, such as overthinking and excessively protracted reasoning chains, which can impair performance. In this paper, we analyze reasoning processes through an optimization lens, framing CoT as a gradient descent procedure where each reasoning step constitutes an update toward problem resolution. Building on this perspective, we introduce RePro (Rectifying Process-level Reward), a novel approach to refine LLM reasoning during post-training. RePro defines a surrogate objective function to assess the optimization process underlying CoT, utilizing a dual scoring mechanism to quantify its intensity and stability. These scores are aggregated into a composite process-level reward, seamlessly integrated into reinforcement learning with verifiable rewards (RLVR) pipelines to optimize LLMs. Extensive experiments across multiple reinforcement learning algorithms and diverse LLMs, evaluated on benchmarks spanning mathematics, science, and coding, demonstrate that RePro consistently enhances reasoning performance and mitigates suboptimal reasoning behaviors.
PDF201December 3, 2025