Het corrigeren van LLM-gedachten vanuit een optimalisatieperspectief
Rectifying LLM Thought from Lens of Optimization
December 1, 2025
Auteurs: Junnan Liu, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen (LLM's) wordt aangedreven door hun opkomende redeneervermogen, met name via uitgebreide 'chain-of-thought' (CoT)-prompting, die grondige verkenning en afweging mogelijk maakt. Ondanks deze vooruitgang vertonen LLM's met lange CoT vaak suboptimale redeneergedragingen, zoals overdacht en excessief langgerekte redeneerketens, wat de prestaties kan schaden. In dit artikel analyseren we redeneerprocessen door een optimalisatielens, waarbij we CoT framen als een gradient descent-procedure waarbij elke redeneerstap een update vormt richting probleemoplossing. Voortbouwend op dit perspectief introduceren we RePro (Rectifying Process-level Reward), een nieuwe benadering om de redenering van LLM's te verfijnen tijdens post-training. RePro definieert een surrogaatdoelfunctie om het optimalisatieproces achter CoT te beoordelen, gebruikmakend van een duale scoringsmechanisme om de intensiteit en stabiliteit ervan te kwantificeren. Deze scores worden geaggregeerd tot een samengestelde beloning op procesniveau, die naadloos wordt geïntegreerd in reinforcement learning pipelines met verifieerbare beloningen (RLVR) om LLM's te optimaliseren. Uitgebreide experimenten met diverse reinforcement learning-algoritmen en uiteenlopende LLM's, geëvalueerd op benchmarks voor wiskunde, wetenschap en codering, tonen aan dat RePro consistent de redeneerprestaties verbetert en suboptimale redeneergedragingen vermindert.
English
Recent advancements in large language models (LLMs) have been driven by their emergent reasoning capabilities, particularly through long chain-of-thought (CoT) prompting, which enables thorough exploration and deliberation. Despite these advances, long-CoT LLMs often exhibit suboptimal reasoning behaviors, such as overthinking and excessively protracted reasoning chains, which can impair performance. In this paper, we analyze reasoning processes through an optimization lens, framing CoT as a gradient descent procedure where each reasoning step constitutes an update toward problem resolution. Building on this perspective, we introduce RePro (Rectifying Process-level Reward), a novel approach to refine LLM reasoning during post-training. RePro defines a surrogate objective function to assess the optimization process underlying CoT, utilizing a dual scoring mechanism to quantify its intensity and stability. These scores are aggregated into a composite process-level reward, seamlessly integrated into reinforcement learning with verifiable rewards (RLVR) pipelines to optimize LLMs. Extensive experiments across multiple reinforcement learning algorithms and diverse LLMs, evaluated on benchmarks spanning mathematics, science, and coding, demonstrate that RePro consistently enhances reasoning performance and mitigates suboptimal reasoning behaviors.