ChatPaper.aiChatPaper

Rettifica del Pensiero degli LLM attraverso la Lente dell'Ottimizzazione

Rectifying LLM Thought from Lens of Optimization

December 1, 2025
Autori: Junnan Liu, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) sono stati guidati dalle loro capacità di ragionamento emergente, in particolare attraverso il prompting a catena di pensiero (CoT) estesa, che consente un'esplorazione e una deliberazione approfondite. Nonostante questi progressi, gli LLM con CoT lunga spesso mostrano comportamenti di ragionamento subottimali, come il sovrapensiero e catene di ragionamento eccessivamente prolungate, che possono compromettere le prestazioni. In questo articolo, analizziamo i processi di ragionamento attraverso una lente ottimizzativa, inquadrando il CoT come una procedura di discesa del gradiente in cui ogni passo di ragionamento costituisce un aggiornamento verso la risoluzione del problema. Basandoci su questa prospettiva, introduciamo RePro (Rectifying Process-level Reward), un nuovo approccio per affinare il ragionamento degli LLM durante il post-addestramento. RePro definisce una funzione obiettivo surrogata per valutare il processo di ottimizzazione sottostante al CoT, utilizzando un meccanismo di punteggio duale per quantificarne l'intensità e la stabilità. Questi punteggi vengono aggregati in una ricompensa composita a livello di processo, integrata perfettamente nelle pipeline di apprendimento per rinforzo con ricompense verificabili (RLVR) per ottimizzare gli LLM. Esperimenti estesi su più algoritmi di apprendimento per rinforzo e vari LLM, valutati su benchmark che spaziano dalla matematica alle scienze e alla programmazione, dimostrano che RePro migliora costantemente le prestazioni di ragionamento e mitiga i comportamenti di ragionamento subottimali.
English
Recent advancements in large language models (LLMs) have been driven by their emergent reasoning capabilities, particularly through long chain-of-thought (CoT) prompting, which enables thorough exploration and deliberation. Despite these advances, long-CoT LLMs often exhibit suboptimal reasoning behaviors, such as overthinking and excessively protracted reasoning chains, which can impair performance. In this paper, we analyze reasoning processes through an optimization lens, framing CoT as a gradient descent procedure where each reasoning step constitutes an update toward problem resolution. Building on this perspective, we introduce RePro (Rectifying Process-level Reward), a novel approach to refine LLM reasoning during post-training. RePro defines a surrogate objective function to assess the optimization process underlying CoT, utilizing a dual scoring mechanism to quantify its intensity and stability. These scores are aggregated into a composite process-level reward, seamlessly integrated into reinforcement learning with verifiable rewards (RLVR) pipelines to optimize LLMs. Extensive experiments across multiple reinforcement learning algorithms and diverse LLMs, evaluated on benchmarks spanning mathematics, science, and coding, demonstrate that RePro consistently enhances reasoning performance and mitigates suboptimal reasoning behaviors.
PDF201December 3, 2025