ChatPaper.aiChatPaper

적응형 길이 기반 보상 형성을 통한 효율적 추론 학습

Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

May 21, 2025
저자: Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He
cs.AI

초록

대규모 추론 모델(Large Reasoning Models, LRMs)은 강화 학습(Reinforcement Learning, RL)을 통해 복잡한 문제를 해결하는 데 있어 특히 긴 추론 흔적을 생성함으로써 놀라운 능력을 보여주었습니다. 그러나 이러한 확장된 출력은 종종 상당한 중복성을 보여 LRM의 효율성을 제한합니다. 본 논문에서는 추론 효율성을 촉진하기 위한 RL 기반 접근 방식을 조사합니다. 구체적으로, 먼저 길이 기반 보상 형성(lenght-based reward shaping)의 관점에서 다양한 효율적 추론 방법을 공식화하는 통합 프레임워크를 제시합니다. 이 관점을 바탕으로, 목표 길이에 의해 제어되는 단계 함수를 보상으로 사용하는 새로운 Length-bAsed StEp Reward shaping 방법(LASER)을 제안합니다. LASER는 이전 방법들을 능가하며 성능과 효율성 사이에서 우수한 파레토 최적 균형을 달성합니다. 다음으로, 두 가지 주요 직관을 기반으로 LASER를 더욱 확장합니다: (1) 모델의 추론 행동은 훈련 중에 진화하므로, 적응적이고 동적인 보상 명세가 필요합니다; (2) 짧거나 긴 사고 사슬(Chain of Thought, CoT)을 균일하게 장려하는 대신, 길이 기반 보상 형성은 난이도 인식적이어야 합니다. 즉, 쉬운 질문에 대해 긴 CoT를 더욱 강하게 처벌해야 합니다. 이 접근 방식은 빠른 사고와 느린 사고의 조합을 촉진하여 전반적으로 더 나은 균형을 이끌 것으로 기대됩니다. 이 결과로 나온 방법을 LASER-D(Dynamic and Difficulty-aware)라고 명명합니다. DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, DeepSeek-R1-Distill-Qwen-32B에 대한 실험은 우리의 접근 방식이 추론 성능과 응답 길이 효율성을 모두 크게 향상시킨다는 것을 보여줍니다. 예를 들어, LASER-D와 그 변형은 AIME2024에서 +6.1의 개선을 달성하면서 토큰 사용량을 63% 줄입니다. 추가 분석은 우리의 RL 기반 압축이 더 간결한 추론 패턴과 더 적은 중복 "자기 반성"을 생성한다는 것을 보여줍니다. 리소스는 https://github.com/hkust-nlp/Laser에서 확인할 수 있습니다.
English
Large Reasoning Models (LRMs) have shown remarkable capabilities in solving complex problems through reinforcement learning (RL), particularly by generating long reasoning traces. However, these extended outputs often exhibit substantial redundancy, which limits the efficiency of LRMs. In this paper, we investigate RL-based approaches to promote reasoning efficiency. Specifically, we first present a unified framework that formulates various efficient reasoning methods through the lens of length-based reward shaping. Building on this perspective, we propose a novel Length-bAsed StEp Reward shaping method (LASER), which employs a step function as the reward, controlled by a target length. LASER surpasses previous methods, achieving a superior Pareto-optimal balance between performance and efficiency. Next, we further extend LASER based on two key intuitions: (1) The reasoning behavior of the model evolves during training, necessitating reward specifications that are also adaptive and dynamic; (2) Rather than uniformly encouraging shorter or longer chains of thought (CoT), we posit that length-based reward shaping should be difficulty-aware i.e., it should penalize lengthy CoTs more for easy queries. This approach is expected to facilitate a combination of fast and slow thinking, leading to a better overall tradeoff. The resulting method is termed LASER-D (Dynamic and Difficulty-aware). Experiments on DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, and DeepSeek-R1-Distill-Qwen-32B show that our approach significantly enhances both reasoning performance and response length efficiency. For instance, LASER-D and its variant achieve a +6.1 improvement on AIME2024 while reducing token usage by 63%. Further analysis reveals our RL-based compression produces more concise reasoning patterns with less redundant "self-reflections". Resources are at https://github.com/hkust-nlp/Laser.

Summary

AI-Generated Summary

PDF281May 22, 2025