ChatPaper.aiChatPaper

최적화 관점에서 본 LLM 사고의 정교화

Rectifying LLM Thought from Lens of Optimization

December 1, 2025
저자: Junnan Liu, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI

초록

대규모 언어 모델(LLM)의 최근 발전은 새로운 추론 능력, 특히 사고 연쇄(CoT) 프롬프팅을 통한 철저한 탐색과 숙고가 가능해지면서 주도되어 왔습니다. 이러한 발전에도 불구하고, 장황한 CoT를 사용하는 LLM은 종종 과도한 사고나 지나치게 길어진 추론 과정과 같은 비효율적인 추론 행태를 보이며, 이는 성능 저하를 초래할 수 있습니다. 본 논문에서는 추론 과정을 최적화 관점에서 분석하여, 각 추론 단계가 문제 해결을 위한 업데이트로 구성된 경사 하강법 절차로서 CoT를 재구성합니다. 이러한 관점을 바탕으로, 사후 훈련 중 LLM 추론을 개선하는 새로운 접근법인 RePro(과정 수준 보정)를 소개합니다. RePro는 CoT의 기반이 되는 최적화 과정을 평가하기 위한 대리 목적 함수를 정의하며, 그 강도와 안정성을 정량화하는 이중 점수 메커니즘을 활용합니다. 이러한 점수는 복합 과정 수준 보상으로 집계되어, 검증 가능한 보상을 활용한 강화 학습(RLVR) 파이프라인에 원활하게 통합되어 LLM을 최적화합니다. 수학, 과학, 코딩 분야의 벤치마크를 통해 다양한 강화 학습 알고리즘과 여러 LLM을 대상으로 진행한 광범위한 실험 결과, RePro가 추론 성능을 지속적으로 향상시키고 비효율적인 추론 행태를 완화하는 것으로 나타났습니다.
English
Recent advancements in large language models (LLMs) have been driven by their emergent reasoning capabilities, particularly through long chain-of-thought (CoT) prompting, which enables thorough exploration and deliberation. Despite these advances, long-CoT LLMs often exhibit suboptimal reasoning behaviors, such as overthinking and excessively protracted reasoning chains, which can impair performance. In this paper, we analyze reasoning processes through an optimization lens, framing CoT as a gradient descent procedure where each reasoning step constitutes an update toward problem resolution. Building on this perspective, we introduce RePro (Rectifying Process-level Reward), a novel approach to refine LLM reasoning during post-training. RePro defines a surrogate objective function to assess the optimization process underlying CoT, utilizing a dual scoring mechanism to quantify its intensity and stability. These scores are aggregated into a composite process-level reward, seamlessly integrated into reinforcement learning with verifiable rewards (RLVR) pipelines to optimize LLMs. Extensive experiments across multiple reinforcement learning algorithms and diverse LLMs, evaluated on benchmarks spanning mathematics, science, and coding, demonstrate that RePro consistently enhances reasoning performance and mitigates suboptimal reasoning behaviors.
PDF201December 3, 2025