Korrektur von LLM-Gedanken aus der Perspektive der Optimierung
Rectifying LLM Thought from Lens of Optimization
December 1, 2025
papers.authors: Junnan Liu, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI
papers.abstract
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) wurden durch ihre emergenten Fähigkeiten zum logischen Schlussfolgern vorangetrieben, insbesondere durch langes "Chain-of-Thought" (CoT)-Prompting, das eine gründliche Exploration und Abwägung ermöglicht. Trotz dieser Fortschritte zeigen LLMs mit langen CoT-Ketten oft suboptimale Denkweisen, wie etwa Grübeln ("Overthinking") und übermäßig in die Länge gezogene Gedankengänge, was die Leistung beeinträchtigen kann. In diesem Artikel analysieren wir Denkprozesse aus einer Optimierungsperspektive und betrachten CoT als ein Gradientenabstiegsverfahren, bei dem jeder Denkschritt einer Aktualisierung in Richtung Problemlösung entspricht. Aufbauend auf dieser Perspektive stellen wir RePro (Rectifying Process-level Reward) vor, einen neuartigen Ansatz zur Verfeinerung des LLM-Schlussfolgerns während des Nachtrainierens. RePro definiert eine Ersatzzielfunktion zur Bewertung des CoT zugrunde liegenden Optimierungsprozesses und nutzt einen dualen Bewertungsmechanismus, um dessen Intensität und Stabilität zu quantifizieren. Diese Bewertungen werden zu einer zusammengesetzten, prozessbasierten Belohnung aggregiert und nahtlos in Reinforcement-Learning-Pipelines mit verifizierbaren Belohnungen (RLVR) integriert, um LLMs zu optimieren. Umfangreiche Experimente mit verschiedenen Reinforcement-Learning-Algorithmen und diversen LLMs, die an Benchmarks aus den Bereichen Mathematik, Naturwissenschaften und Programmieren evaluiert wurden, zeigen, dass RePro die Schlussfolgerungsleistung konsistent verbessert und suboptimale Denkweisen abmildert.
English
Recent advancements in large language models (LLMs) have been driven by their emergent reasoning capabilities, particularly through long chain-of-thought (CoT) prompting, which enables thorough exploration and deliberation. Despite these advances, long-CoT LLMs often exhibit suboptimal reasoning behaviors, such as overthinking and excessively protracted reasoning chains, which can impair performance. In this paper, we analyze reasoning processes through an optimization lens, framing CoT as a gradient descent procedure where each reasoning step constitutes an update toward problem resolution. Building on this perspective, we introduce RePro (Rectifying Process-level Reward), a novel approach to refine LLM reasoning during post-training. RePro defines a surrogate objective function to assess the optimization process underlying CoT, utilizing a dual scoring mechanism to quantify its intensity and stability. These scores are aggregated into a composite process-level reward, seamlessly integrated into reinforcement learning with verifiable rewards (RLVR) pipelines to optimize LLMs. Extensive experiments across multiple reinforcement learning algorithms and diverse LLMs, evaluated on benchmarks spanning mathematics, science, and coding, demonstrate that RePro consistently enhances reasoning performance and mitigates suboptimal reasoning behaviors.