Otimização da Compressão de Comprimento em Modelos de Raciocínio de Grande Escala
Optimizing Length Compression in Large Reasoning Models
June 17, 2025
Autores: Zhengxiang Cheng, Dongping Chen, Mingyang Fu, Tianyi Zhou
cs.AI
Resumo
Modelos de Raciocínio de Grande Escala (LRMs) têm alcançado sucesso notável, mas frequentemente sofrem com a produção de cadeias de raciocínio desnecessárias e verbosas. Identificamos um aspecto central desse problema como "pensamento inválido" — os modelos tendem a verificar repetidamente seu trabalho após terem derivado a resposta correta. Para abordar essa ineficiência específica, vamos além dos princípios gerais de Eficácia e Eficiência para propor dois novos princípios mais refinados: Brevidade, que defende a eliminação de redundâncias, e Suficiência, que garante a preservação de etapas críticas de raciocínio. Guiados por esses princípios, introduzimos o LC-R1, um método de pós-treinamento baseado na Otimização de Política Relativa em Grupo (GRPO). O LC-R1 emprega uma combinação inovadora de uma Recompensa de Comprimento para concisão geral e uma Recompensa de Compressão especificamente projetada para remover a porção inválida do processo de pensamento. Experimentos extensos em múltiplos benchmarks de raciocínio demonstram que o LC-R1 alcança uma redução significativa no comprimento da sequência (~50%) com apenas uma queda marginal (~2%) na precisão, atingindo um ponto favorável na fronteira de Pareto que prioriza alta compressão. Nossa análise valida ainda mais a robustez do LC-R1 e fornece insights valiosos para o desenvolvimento de LRMs mais poderosos e computacionalmente eficientes. Nosso código está disponível em https://github.com/zxiangx/LC-R1.
English
Large Reasoning Models (LRMs) have achieved remarkable success, yet they
often suffer from producing unnecessary and verbose reasoning chains. We
identify a core aspect of this issue as "invalid thinking" -- models tend to
repeatedly double-check their work after having derived the correct answer. To
address this specific inefficiency, we move beyond the general principles of
Efficacy and Efficiency to propose two new, fine-grained principles: Brevity,
which advocates for eliminating redundancy, and Sufficiency, which ensures
critical reasoning steps are preserved. Guided by these principles, we
introduce LC-R1, a post-training method based on Group Relative Policy
Optimization (GRPO). LC-R1 employs a novel combination of a Length Reward for
overall conciseness and a Compress Reward that is specifically designed to
remove the invalid portion of the thinking process. Extensive experiments on
multiple reasoning benchmarks demonstrate that LC-R1 achieves a significant
reduction in sequence length (~50%) with only a marginal (~2%) drop in
accuracy, achieving a favorable trade-off point on the Pareto frontier that
prioritizes high compression. Our analysis further validates the robustness of
LC-R1 and provides valuable insights for developing more powerful yet
computationally efficient LRMs. Our code is released at
https://github.com/zxiangx/LC-R1.