ChatPaper.aiChatPaper

효율적 추론의 기술: 데이터, 보상, 최적화

The Art of Efficient Reasoning: Data, Reward, and Optimization

February 24, 2026
저자: Taiqiang Wu, Zenan Zu, Bo Zhou, Ngai Wong
cs.AI

초록

대규모 언어 모델(LLM)은 일반적으로 확장된 사고 연쇄(CoT) 추론을 통해 성능 향상을 얻지만, 이로 인해 막대한 계산 부하가 발생하는 문제도 있습니다. 이러한 문제를 해결하기 위해 효율적 추론 연구는 주로 강화 학습(RL)을 통한 보상 형성을 통해 짧으면서도 정확한 사고 궤적을 유도하는 것을 목표로 합니다. 본 논문에서는 LLM의 효율적 추론 메커니즘을 체계적으로 연구합니다. 포괄적인 평가를 위해 정확도에 따른 길이 분포 및 2k에서 32k에 이르는 광범위한 토큰 예산 범위에서의 성능을 포함한 보다 세분화된 지표의 필요성을 제안합니다. 먼저, 학습 과정이 길이 적응과 추론 정교화라는 두 단계 패러다임을 따름을 밝혀냅니다. 이후 통합된 실험 프로토콜 하에서 학습 프롬프트와 롤아웃, 보상 형성, 최적화 전략을 분석하는 대규모 실험(약 20만 GPU 시간)을 수행합니다. 특히 핵심 발견으로는 상대적으로 쉬운 프롬프트를 사용하여 학습함으로써 긍정적 보상 신호의 밀도를 보장하고 길이 붕괴를 방지할 수 있다는 점을 확인했습니다. 동시에 학습된 길이 편향은 다양한 도메인에 걸쳐 일반화 가능합니다. 모든 연구 결과를 가치 있는 통찰과 실용적인 지침으로 정리하였으며, Qwen3 시리즈(0.6B부터 30B까지)에서 이를 추가로 검증하여 견고성과 일반화 능력을 입증했습니다.
English
Large Language Models (LLMs) consistently benefit from scaled Chain-of-Thought (CoT) reasoning, but also suffer from heavy computational overhead. To address this issue, efficient reasoning aims to incentivize short yet accurate thinking trajectories, typically through reward shaping with Reinforcement Learning (RL). In this paper, we systematically investigate the mechanics of efficient reasoning for LLMs. For comprehensive evaluation, we advocate for more fine-grained metrics, including length distribution conditioned on correctness and performance across a wide spectrum of token budgets ranging from 2k to 32k. First, we reveal that the training process follows a two-stage paradigm: length adaptation and reasoning refinement. After that, we conduct extensive experiments (about 0.2 million GPU hours) in a unified protocol, deconstructing training prompts and rollouts, reward shaping, and optimization strategies. In particular, a key finding is to train on relatively easier prompts, ensuring the density of positive reward signals and thus avoiding the length collapse. Meanwhile, the learned length bias can be generalized across domains. We distill all findings into valuable insights and practical guidelines, and further validate them across the Qwen3 series, ranging from 0.6B to 30B, demonstrating the robustness and generalization.
PDF71March 28, 2026