Apprendimento per Rinforzo con Ancore di Rubrica
Reinforcement Learning with Rubric Anchors
August 18, 2025
Autori: Zenan Huang, Yihong Zhuang, Guoshan Lu, Zeyu Qin, Haokai Xu, Tianyu Zhao, Ru Peng, Jiaqi Hu, Zhanming Shen, Xiaomeng Hu, Xijun Gu, Peiyi Tu, Jiaxin Liu, Wenyu Chen, Yuzhuo Fu, Zhiting Fan, Yanmei Gu, Yuanyuan Wang, Zhengkai Yang, Jianguo Li, Junbo Zhao
cs.AI
Abstract
Il Reinforcement Learning da Ricompense Verificabili (RLVR) è emerso come un paradigma potente per migliorare i Modelli Linguistici di Grande Scala (LLMs), come dimostrato dal successo della serie o di OpenAI. Nell'RLVR, le ricompense sono derivate da segnali verificabili, come il superamento di test unitari nella generazione di codice o la corrispondenza con risposte corrette nel ragionamento matematico. Sebbene efficace, questo requisito limita in gran parte l'RLVR a domini con risultati verificabili automaticamente. Per superare questa limitazione, estendiamo il paradigma RLVR a compiti aperti integrando ricompense basate su rubriche, dove rubriche progettate con cura fungono da criteri strutturati e interpretabili dal modello per la valutazione automatica di output soggettivi. Costruiamo, a nostra conoscenza, il più grande sistema di ricompense basato su rubriche fino ad oggi, con oltre 10.000 rubriche provenienti da umani, LLMs o una collaborazione ibrida umano-LLM. Implementare l'RL basato su rubriche è impegnativo; affrontiamo queste problematiche con un framework chiaro e presentiamo un modello Qwen-30B-A3B open-source con miglioramenti significativi: 1) Con soli 5K+ campioni, il nostro sistema migliora del +5,2% su benchmark aperti (specialmente nelle discipline umanistiche), superando un modello DeepSeek-V3 da 671B del +2,4%, preservando al contempo capacità generali e di ragionamento. 2) Il nostro metodo offre un controllo stilistico granulare, utilizzando le rubriche come ancore per mitigare il tono "da AI" e produrre risposte più umane ed espressive. Condividiamo lezioni chiave nella costruzione delle rubriche, selezione dei dati e addestramento, e discutiamo limitazioni e rilasci futuri.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a
powerful paradigm for enhancing Large Language Models (LLMs), exemplified by
the success of OpenAI's o-series. In RLVR, rewards are derived from verifiable
signals-such as passing unit tests in code generation or matching correct
answers in mathematical reasoning. While effective, this requirement largely
confines RLVR to domains with automatically checkable outcomes. To overcome
this, we extend the RLVR paradigm to open-ended tasks by integrating
rubric-based rewards, where carefully designed rubrics serve as structured,
model-interpretable criteria for automatic scoring of subjective outputs. We
construct, to our knowledge, the largest rubric reward system to date, with
over 10,000 rubrics from humans, LLMs, or a hybrid human-LLM collaboration.
Implementing rubric-based RL is challenging; we tackle these issues with a
clear framework and present an open-sourced Qwen-30B-A3B model with notable
gains: 1) With only 5K+ samples, our system improves by +5.2% on open-ended
benchmarks (especially humanities), outperforming a 671B DeepSeek-V3 model by
+2.4%, while preserving general and reasoning abilities. 2) Our method provides
fine-grained stylistic control, using rubrics as anchors to mitigate the
"AI-like" tone and produce more human-like, expressive responses. We share key
lessons in rubric construction, data selection, and training, and discuss
limitations and future releases.