Apprentissage par Renforcement avec Ancres de Rubrique
Reinforcement Learning with Rubric Anchors
August 18, 2025
papers.authors: Zenan Huang, Yihong Zhuang, Guoshan Lu, Zeyu Qin, Haokai Xu, Tianyu Zhao, Ru Peng, Jiaqi Hu, Zhanming Shen, Xiaomeng Hu, Xijun Gu, Peiyi Tu, Jiaxin Liu, Wenyu Chen, Yuzhuo Fu, Zhiting Fan, Yanmei Gu, Yuanyuan Wang, Zhengkai Yang, Jianguo Li, Junbo Zhao
cs.AI
papers.abstract
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) s'est imposé comme un paradigme puissant pour améliorer les modèles de langage à grande échelle (LLMs), comme en témoigne le succès de la série o d'OpenAI. Dans le RLVR, les récompenses sont dérivées de signaux vérifiables, tels que la réussite de tests unitaires en génération de code ou la correspondance avec des réponses correctes en raisonnement mathématique. Bien qu'efficace, cette exigence confine largement le RLVR à des domaines où les résultats peuvent être vérifiés automatiquement. Pour surmonter cette limitation, nous étendons le paradigme RLVR à des tâches ouvertes en intégrant des récompenses basées sur des grilles d'évaluation, où des critères soigneusement conçus servent de références structurées et interprétables par le modèle pour le scoring automatique de productions subjectives. Nous avons construit, à notre connaissance, le plus grand système de récompenses basé sur des grilles d'évaluation à ce jour, avec plus de 10 000 grilles issues d'humains, de LLMs ou d'une collaboration hybride humain-LLM. La mise en œuvre du RL basé sur des grilles d'évaluation est complexe ; nous abordons ces défis avec un cadre clair et présentons un modèle open-source Qwen-30B-A3B avec des gains notables : 1) Avec seulement 5 000+ échantillons, notre système s'améliore de +5,2 % sur des benchmarks ouverts (en particulier en sciences humaines), surpassant un modèle DeepSeek-V3 de 671B de +2,4 %, tout en préservant les capacités générales et de raisonnement. 2) Notre méthode offre un contrôle stylistique granulaire, utilisant les grilles d'évaluation comme ancres pour atténuer le ton "artificiel" et produire des réponses plus humaines et expressives. Nous partageons des leçons clés sur la construction des grilles d'évaluation, la sélection des données et l'entraînement, et discutons des limitations et des futures versions.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a
powerful paradigm for enhancing Large Language Models (LLMs), exemplified by
the success of OpenAI's o-series. In RLVR, rewards are derived from verifiable
signals-such as passing unit tests in code generation or matching correct
answers in mathematical reasoning. While effective, this requirement largely
confines RLVR to domains with automatically checkable outcomes. To overcome
this, we extend the RLVR paradigm to open-ended tasks by integrating
rubric-based rewards, where carefully designed rubrics serve as structured,
model-interpretable criteria for automatic scoring of subjective outputs. We
construct, to our knowledge, the largest rubric reward system to date, with
over 10,000 rubrics from humans, LLMs, or a hybrid human-LLM collaboration.
Implementing rubric-based RL is challenging; we tackle these issues with a
clear framework and present an open-sourced Qwen-30B-A3B model with notable
gains: 1) With only 5K+ samples, our system improves by +5.2% on open-ended
benchmarks (especially humanities), outperforming a 671B DeepSeek-V3 model by
+2.4%, while preserving general and reasoning abilities. 2) Our method provides
fine-grained stylistic control, using rubrics as anchors to mitigate the
"AI-like" tone and produce more human-like, expressive responses. We share key
lessons in rubric construction, data selection, and training, and discuss
limitations and future releases.