ChatPaper.aiChatPaper

Klear-Reasoner : Amélioration des capacités de raisonnement via une optimisation de stratégie de découpage préservant le gradient

Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

August 11, 2025
papers.authors: Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Guorui Zhou
cs.AI

papers.abstract

Nous présentons Klear-Reasoner, un modèle doté de capacités de raisonnement étendu qui démontre une délibération minutieuse lors de la résolution de problèmes, obtenant des performances exceptionnelles sur plusieurs benchmarks. Bien qu'il existe déjà de nombreux travaux remarquables liés aux modèles d'inférence dans la communauté actuelle, la reproduction de modèles d'inférence à haute performance reste problématique en raison de la divulgation incomplète des détails d'entraînement. Ce rapport propose une analyse approfondie du modèle de raisonnement, couvrant l'ensemble du flux de travail post-entraînement, de la préparation des données et du fine-tuning supervisé avec chaîne de pensée étendue (long CoT SFT) à l'apprentissage par renforcement (RL), ainsi que des études d'ablation détaillées pour chaque composant expérimental. Pour les données de SFT, nos expériences montrent qu'un petit nombre de sources de données de haute qualité est plus efficace qu'un grand nombre de sources diversifiées, et que les échantillons difficiles peuvent donner de meilleurs résultats sans filtrage de précision. De plus, nous étudions deux problèmes clés des mécanismes de clipping actuels en RL : le clipping supprime les signaux d'exploration critiques et ignore les trajectoires sous-optimales. Pour relever ces défis, nous proposons l'Optimisation de Politique avec Clipping Préservant le Gradient (GPPO), qui propage doucement les gradients des tokens clippés. GPPO améliore non seulement la capacité d'exploration du modèle, mais aussi son efficacité à apprendre à partir d'échantillons négatifs. Klear-Reasoner démontre des capacités de raisonnement exceptionnelles en mathématiques et en programmation, obtenant des scores de 90,5 % sur AIME 2024, 83,2 % sur AIME 2025, 66,0 % sur LiveCodeBench V5 et 58,1 % sur LiveCodeBench V6.
English
We present Klear-Reasoner, a model with long reasoning capabilities that demonstrates careful deliberation during problem solving, achieving outstanding performance across multiple benchmarks. Although there are already many excellent works related to inference models in the current community, there are still many problems with reproducing high-performance inference models due to incomplete disclosure of training details. This report provides an in-depth analysis of the reasoning model, covering the entire post-training workflow from data preparation and long Chain-of-Thought supervised fine-tuning (long CoT SFT) to reinforcement learning (RL), along with detailed ablation studies for each experimental component. For SFT data, our experiments show that a small number of high-quality data sources are more effective than a large number of diverse data sources, and that difficult samples can achieve better results without accuracy filtering. In addition, we investigate two key issues with current clipping mechanisms in RL: Clipping suppresses critical exploration signals and ignores suboptimal trajectories. To address these challenges, we propose Gradient-Preserving clipping Policy Optimization (GPPO) that gently backpropagates gradients from clipped tokens. GPPO not only enhances the model's exploration capacity but also improves its efficiency in learning from negative samples. Klear-Reasoner exhibits exceptional reasoning abilities in mathematics and programming, scoring 90.5\% on AIME 2024, 83.2\% on AIME 2025, 66.0\% on LiveCodeBench V5 and 58.1\% on LiveCodeBench V6.
PDF344August 12, 2025