ChatPaper.aiChatPaper

Rectificación del Pensamiento de los LLM desde la Perspectiva de la Optimización

Rectifying LLM Thought from Lens of Optimization

December 1, 2025
Autores: Junnan Liu, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI

Resumen

Los recientes avances en los modelos de lenguaje a gran escala (LLM) han sido impulsados por sus capacidades emergentes de razonamiento, particularmente mediante el prompting de cadena de pensamiento extensa (CoT), que permite una exploración y deliberación exhaustivas. A pesar de estos avances, los LLM con CoT extensa a menudo exhiben comportamientos de razonamiento subóptimos, como la sobre-reflexión y cadenas de razonamiento excesivamente prolongadas, lo que puede afectar negativamente al rendimiento. En este artículo, analizamos los procesos de razonamiento desde una perspectiva de optimización, enmarcando CoT como un procedimiento de descenso de gradiente donde cada paso de razonamiento constituye una actualización hacia la resolución del problema. Basándonos en esta perspectiva, presentamos RePro (Recompensa Rectificadora a Nivel de Proceso), un enfoque novedoso para refinar el razonamiento de los LLM durante el post-entrenamiento. RePro define una función objetivo sustituta para evaluar el proceso de optimización subyacente a CoT, utilizando un mecanismo de puntuación dual para cuantificar su intensidad y estabilidad. Estas puntuaciones se agregan en una recompensa compuesta a nivel de proceso, integrada perfectamente en pipelines de aprendizaje por refuerzo con recompensas verificables (RLVR) para optimizar los LLM. Experimentos exhaustivos con múltiples algoritmos de aprendizaje por refuerzo y diversos LLM, evaluados en benchmarks que abarcan matemáticas, ciencias y programación, demuestran que RePro mejora consistentemente el rendimiento del razonamiento y mitiga los comportamientos de razonamiento subóptimos.
English
Recent advancements in large language models (LLMs) have been driven by their emergent reasoning capabilities, particularly through long chain-of-thought (CoT) prompting, which enables thorough exploration and deliberation. Despite these advances, long-CoT LLMs often exhibit suboptimal reasoning behaviors, such as overthinking and excessively protracted reasoning chains, which can impair performance. In this paper, we analyze reasoning processes through an optimization lens, framing CoT as a gradient descent procedure where each reasoning step constitutes an update toward problem resolution. Building on this perspective, we introduce RePro (Rectifying Process-level Reward), a novel approach to refine LLM reasoning during post-training. RePro defines a surrogate objective function to assess the optimization process underlying CoT, utilizing a dual scoring mechanism to quantify its intensity and stability. These scores are aggregated into a composite process-level reward, seamlessly integrated into reinforcement learning with verifiable rewards (RLVR) pipelines to optimize LLMs. Extensive experiments across multiple reinforcement learning algorithms and diverse LLMs, evaluated on benchmarks spanning mathematics, science, and coding, demonstrate that RePro consistently enhances reasoning performance and mitigates suboptimal reasoning behaviors.
PDF201December 3, 2025