ChatPaper.aiChatPaper

LAPO: 길이 적응형 정책 최적화를 통한 추론 효율성 내재화

LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

July 21, 2025
저자: Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang
cs.AI

초록

대규모 추론 모델들은 확장된 사고 사슬(chain-of-thought) 시퀀스를 통해 뛰어난 성능을 달성했지만, 이러한 계산적 자유로 인해 간단한 문제에서도 과도한 토큰 생성이 발생합니다. 우리는 길이 적응형 정책 최적화(Length-Adaptive Policy Optimization, LAPO)라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 추론 길이 제어를 외부 제약에서 모델의 내재적 능력으로 전환합니다. 기존의 접근 방식이 엄격한 제한을 부과하거나 사후 개입에 의존하는 것과 달리, LAPO는 두 단계의 강화 학습 과정을 통해 모델이 적절한 추론 깊이를 내재화하도록 합니다. 첫 번째 단계에서 모델은 성공적인 해결 길이의 통계적 분포를 발견함으로써 자연스러운 추론 패턴을 학습합니다. 두 번째 단계에서는 이러한 패턴을 메타인지적 지침으로 활용하여 모델의 추론 컨텍스트에 직접 내장함으로써 추론 시 유연성을 보장합니다. 수학적 추론 벤치마크에서의 실험 결과, LAPO는 토큰 사용량을 최대 40.9% 줄이면서 정확도를 2.3% 향상시킴을 보여줍니다. 우리의 분석은 LAPO로 훈련된 모델들이 문제 복잡도에 따라 계산 자원을 할당하는 새로운 능력을 개발하며, 품질을 희생하지 않고 효율적인 추론을 달성함을 보여줍니다.
English
Large reasoning models have achieved remarkable performance through extended chain-of-thought sequences, yet this computational freedom leads to excessive token generation even for simple problems. We present Length-Adaptive Policy Optimization (LAPO), a novel framework that transforms reasoning length control from an external constraint into an intrinsic model capability. Unlike existing approaches that impose rigid limits or rely on post-hoc interventions, LAPO enables models to internalize an understanding of appropriate reasoning depth through a two-stage reinforcement learning process. In the first stage, models learn natural reasoning patterns by discovering the statistical distribution of successful solution lengths. The second stage leverages these patterns as meta-cognitive guidance, embedding them directly within the model's reasoning context to ensure inference-time flexibility. Experiments on mathematical reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9\% while improving accuracy by 2.3\%. Our analysis reveals that models trained with LAPO develop emergent abilities to allocate computational resources based on problem complexity, achieving efficient reasoning without sacrificing quality.
PDF341July 25, 2025