Rectification de la pensée des LLM sous l'angle de l'optimisation
Rectifying LLM Thought from Lens of Optimization
December 1, 2025
papers.authors: Junnan Liu, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI
papers.abstract
Les récents progrès des grands modèles de langage (LLM) sont portés par leurs capacités émergentes de raisonnement, notamment via l'utilisation de prompts à longue chaîne de pensée (CoT), qui permettent une exploration et une délibération approfondies. Malgré ces avancées, les LLM utilisant de longues chaînes CoT présentent souvent des comportements de raisonnement sous-optimaux, tels que la surréflexion et des chaînes de raisonnement excessivement prolongées, pouvant altérer les performances. Dans cet article, nous analysons les processus de raisonnement sous l'angle de l'optimisation, en conceptualisant la CoT comme une procédure de descente de gradient où chaque étape de raisonnement constitue une mise à jour vers la résolution du problème. Sur la base de cette perspective, nous introduisons RePro (Rectification par Récompense de Processus), une approche novatrice pour affiner le raisonnement des LLM lors du post-entraînement. RePro définit une fonction objectif de substitution pour évaluer le processus d'optimisation sous-jacent à la CoT, utilisant un mécanisme de double évaluation pour quantifier son intensité et sa stabilité. Ces scores sont agrégés en une récompense composite au niveau processus, intégrée de manière transparente dans des pipelines d'apprentissage par renforcement avec récompenses vérifiables (RLVR) pour optimiser les LLM. Des expériences approfondies avec plusieurs algorithmes d'apprentissage par renforcement et divers LLM, évaluées sur des benchmarks couvrant les mathématiques, les sciences et la programmation, démontrent que RePro améliore constamment les performances de raisonnement et atténue les comportements de raisonnement sous-optimaux.
English
Recent advancements in large language models (LLMs) have been driven by their emergent reasoning capabilities, particularly through long chain-of-thought (CoT) prompting, which enables thorough exploration and deliberation. Despite these advances, long-CoT LLMs often exhibit suboptimal reasoning behaviors, such as overthinking and excessively protracted reasoning chains, which can impair performance. In this paper, we analyze reasoning processes through an optimization lens, framing CoT as a gradient descent procedure where each reasoning step constitutes an update toward problem resolution. Building on this perspective, we introduce RePro (Rectifying Process-level Reward), a novel approach to refine LLM reasoning during post-training. RePro defines a surrogate objective function to assess the optimization process underlying CoT, utilizing a dual scoring mechanism to quantify its intensity and stability. These scores are aggregated into a composite process-level reward, seamlessly integrated into reinforcement learning with verifiable rewards (RLVR) pipelines to optimize LLMs. Extensive experiments across multiple reinforcement learning algorithms and diverse LLMs, evaluated on benchmarks spanning mathematics, science, and coding, demonstrate that RePro consistently enhances reasoning performance and mitigates suboptimal reasoning behaviors.