ChatPaper.aiChatPaper

Ottimizzazione della Compressione della Lunghezza nei Modelli di Ragionamento su Grande Scala

Optimizing Length Compression in Large Reasoning Models

June 17, 2025
Autori: Zhengxiang Cheng, Dongping Chen, Mingyang Fu, Tianyi Zhou
cs.AI

Abstract

I Large Reasoning Models (LRM) hanno ottenuto un successo notevole, ma spesso soffrono della produzione di catene di ragionamento non necessarie e prolisse. Identifichiamo un aspetto centrale di questo problema come "pensiero invalido" — i modelli tendono a ricontrollare ripetutamente il loro lavoro dopo aver derivato la risposta corretta. Per affrontare questa specifica inefficienza, andiamo oltre i principi generali di Efficacia ed Efficienza per proporre due nuovi principi più granulari: Brevità, che promuove l'eliminazione della ridondanza, e Sufficienza, che garantisce la preservazione dei passaggi critici del ragionamento. Guidati da questi principi, introduciamo LC-R1, un metodo post-addestramento basato su Group Relative Policy Optimization (GRPO). LC-R1 impiega una combinazione innovativa di un Length Reward per la concisione complessiva e un Compress Reward specificamente progettato per rimuovere la porzione invalida del processo di pensiero. Esperimenti estesi su molteplici benchmark di ragionamento dimostrano che LC-R1 ottiene una riduzione significativa della lunghezza della sequenza (~50%) con solo un calo marginale (~2%) nell'accuratezza, raggiungendo un punto di compromesso favorevole sulla frontiera di Pareto che privilegia un'elevata compressione. La nostra analisi valida ulteriormente la robustezza di LC-R1 e fornisce spunti preziosi per lo sviluppo di LRM più potenti ma computazionalmente efficienti. Il nostro codice è rilasciato su https://github.com/zxiangx/LC-R1.
English
Large Reasoning Models (LRMs) have achieved remarkable success, yet they often suffer from producing unnecessary and verbose reasoning chains. We identify a core aspect of this issue as "invalid thinking" -- models tend to repeatedly double-check their work after having derived the correct answer. To address this specific inefficiency, we move beyond the general principles of Efficacy and Efficiency to propose two new, fine-grained principles: Brevity, which advocates for eliminating redundancy, and Sufficiency, which ensures critical reasoning steps are preserved. Guided by these principles, we introduce LC-R1, a post-training method based on Group Relative Policy Optimization (GRPO). LC-R1 employs a novel combination of a Length Reward for overall conciseness and a Compress Reward that is specifically designed to remove the invalid portion of the thinking process. Extensive experiments on multiple reasoning benchmarks demonstrate that LC-R1 achieves a significant reduction in sequence length (~50%) with only a marginal (~2%) drop in accuracy, achieving a favorable trade-off point on the Pareto frontier that prioritizes high compression. Our analysis further validates the robustness of LC-R1 and provides valuable insights for developing more powerful yet computationally efficient LRMs. Our code is released at https://github.com/zxiangx/LC-R1.
PDF112June 18, 2025