ChatPaper.aiChatPaper

LAPO: Internalizando a Eficiência de Raciocínio via Otimização de Política Adaptativa ao Comprimento

LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization

July 21, 2025
Autores: Xingyu Wu, Yuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang
cs.AI

Resumo

Modelos de raciocínio em larga escala têm alcançado desempenho notável por meio de sequências extensas de cadeias de pensamento, mas essa liberdade computacional resulta em geração excessiva de tokens, mesmo para problemas simples. Apresentamos o Length-Adaptive Policy Optimization (LAPO), uma estrutura inovadora que transforma o controle do comprimento do raciocínio de uma restrição externa em uma capacidade intrínseca do modelo. Diferente de abordagens existentes que impõem limites rígidos ou dependem de intervenções pós-hoc, o LAPO permite que os modelos internalizem a compreensão da profundidade adequada de raciocínio por meio de um processo de aprendizado por reforço em duas etapas. Na primeira etapa, os modelos aprendem padrões naturais de raciocínio ao descobrir a distribuição estatística dos comprimentos de soluções bem-sucedidas. A segunda etapa utiliza esses padrões como orientação metacognitiva, incorporando-os diretamente no contexto de raciocínio do modelo para garantir flexibilidade durante a inferência. Experimentos em benchmarks de raciocínio matemático demonstram que o LAPO reduz o uso de tokens em até 40,9% enquanto melhora a precisão em 2,3%. Nossa análise revela que modelos treinados com o LAPO desenvolvem habilidades emergentes para alocar recursos computacionais com base na complexidade do problema, alcançando raciocínio eficiente sem sacrificar a qualidade.
English
Large reasoning models have achieved remarkable performance through extended chain-of-thought sequences, yet this computational freedom leads to excessive token generation even for simple problems. We present Length-Adaptive Policy Optimization (LAPO), a novel framework that transforms reasoning length control from an external constraint into an intrinsic model capability. Unlike existing approaches that impose rigid limits or rely on post-hoc interventions, LAPO enables models to internalize an understanding of appropriate reasoning depth through a two-stage reinforcement learning process. In the first stage, models learn natural reasoning patterns by discovering the statistical distribution of successful solution lengths. The second stage leverages these patterns as meta-cognitive guidance, embedding them directly within the model's reasoning context to ensure inference-time flexibility. Experiments on mathematical reasoning benchmarks demonstrate that LAPO reduces token usage by up to 40.9\% while improving accuracy by 2.3\%. Our analysis reveals that models trained with LAPO develop emergent abilities to allocate computational resources based on problem complexity, achieving efficient reasoning without sacrificing quality.
PDF331July 25, 2025