Klear-Reasoner : Amélioration des capacités de raisonnement via une optimisation de stratégie de découpage préservant le gradient
Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization
August 11, 2025
papers.authors: Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Guorui Zhou
cs.AI
papers.abstract
Nous présentons Klear-Reasoner, un modèle doté de capacités de raisonnement étendu qui démontre une délibération minutieuse lors de la résolution de problèmes, obtenant des performances exceptionnelles sur plusieurs benchmarks. Bien qu'il existe déjà de nombreux travaux remarquables liés aux modèles d'inférence dans la communauté actuelle, la reproduction de modèles d'inférence à haute performance reste problématique en raison de la divulgation incomplète des détails d'entraînement. Ce rapport propose une analyse approfondie du modèle de raisonnement, couvrant l'ensemble du flux de travail post-entraînement, de la préparation des données et du fine-tuning supervisé avec chaîne de pensée étendue (long CoT SFT) à l'apprentissage par renforcement (RL), ainsi que des études d'ablation détaillées pour chaque composant expérimental. Pour les données de SFT, nos expériences montrent qu'un petit nombre de sources de données de haute qualité est plus efficace qu'un grand nombre de sources diversifiées, et que les échantillons difficiles peuvent donner de meilleurs résultats sans filtrage de précision. De plus, nous étudions deux problèmes clés des mécanismes de clipping actuels en RL : le clipping supprime les signaux d'exploration critiques et ignore les trajectoires sous-optimales. Pour relever ces défis, nous proposons l'Optimisation de Politique avec Clipping Préservant le Gradient (GPPO), qui propage doucement les gradients des tokens clippés. GPPO améliore non seulement la capacité d'exploration du modèle, mais aussi son efficacité à apprendre à partir d'échantillons négatifs. Klear-Reasoner démontre des capacités de raisonnement exceptionnelles en mathématiques et en programmation, obtenant des scores de 90,5 % sur AIME 2024, 83,2 % sur AIME 2025, 66,0 % sur LiveCodeBench V5 et 58,1 % sur LiveCodeBench V6.
English
We present Klear-Reasoner, a model with long reasoning capabilities that
demonstrates careful deliberation during problem solving, achieving outstanding
performance across multiple benchmarks. Although there are already many
excellent works related to inference models in the current community, there are
still many problems with reproducing high-performance inference models due to
incomplete disclosure of training details. This report provides an in-depth
analysis of the reasoning model, covering the entire post-training workflow
from data preparation and long Chain-of-Thought supervised fine-tuning (long
CoT SFT) to reinforcement learning (RL), along with detailed ablation studies
for each experimental component. For SFT data, our experiments show that a
small number of high-quality data sources are more effective than a large
number of diverse data sources, and that difficult samples can achieve better
results without accuracy filtering. In addition, we investigate two key issues
with current clipping mechanisms in RL: Clipping suppresses critical
exploration signals and ignores suboptimal trajectories. To address these
challenges, we propose Gradient-Preserving clipping Policy Optimization (GPPO)
that gently backpropagates gradients from clipped tokens. GPPO not only
enhances the model's exploration capacity but also improves its efficiency in
learning from negative samples. Klear-Reasoner exhibits exceptional reasoning
abilities in mathematics and programming, scoring 90.5\% on AIME 2024, 83.2\%
on AIME 2025, 66.0\% on LiveCodeBench V5 and 58.1\% on LiveCodeBench V6.