Verstärkungslernen mit Rubrikenankern
Reinforcement Learning with Rubric Anchors
August 18, 2025
papers.authors: Zenan Huang, Yihong Zhuang, Guoshan Lu, Zeyu Qin, Haokai Xu, Tianyu Zhao, Ru Peng, Jiaqi Hu, Zhanming Shen, Xiaomeng Hu, Xijun Gu, Peiyi Tu, Jiaxin Liu, Wenyu Chen, Yuzhuo Fu, Zhiting Fan, Yanmei Gu, Yuanyuan Wang, Zhengkai Yang, Jianguo Li, Junbo Zhao
cs.AI
papers.abstract
Reinforcement Learning from Verifiable Rewards (RLVR) hat sich als ein leistungsstarkes Paradigma zur Verbesserung von Large Language Models (LLMs) etabliert, wie der Erfolg der o-Serie von OpenAI zeigt. Bei RLVR werden Belohnungen aus verifizierbaren Signalen abgeleitet – wie das Bestehen von Unit-Tests in der Code-Generierung oder das Übereinstimmen mit korrekten Antworten in mathematischen Schlussfolgerungen. Obwohl effektiv, beschränkt diese Anforderung RLVR weitgehend auf Domänen mit automatisch überprüfbaren Ergebnissen. Um dies zu überwinden, erweitern wir das RLVR-Paradigma auf offene Aufgaben, indem wir rubrikbasierte Belohnungen integrieren, bei denen sorgfältig gestaltete Rubriken als strukturierte, modellinterpretierbare Kriterien für die automatische Bewertung subjektiver Ausgaben dienen. Wir erstellen, soweit uns bekannt, das bisher größte Rubrik-Belohnungssystem mit über 10.000 Rubriken, die von Menschen, LLMs oder einer hybriden Mensch-LLM-Kollaboration stammen. Die Implementierung von rubrikbasiertem RL ist herausfordernd; wir gehen diese Probleme mit einem klaren Rahmenwerk an und präsentieren ein quelloffenes Qwen-30B-A3B-Modell mit bemerkenswerten Fortschritten: 1) Mit nur 5.000+ Proben verbessert sich unser System um +5,2 % bei offenen Benchmarks (insbesondere in den Geisteswissenschaften) und übertrifft ein 671B DeepSeek-V3-Modell um +2,4 %, während allgemeine und schlussfolgernde Fähigkeiten erhalten bleiben. 2) Unsere Methode bietet eine fein abgestimmte stilistische Kontrolle, indem Rubriken als Anker verwendet werden, um den „KI-artigen“ Ton zu mildern und menschlichere, ausdrucksstärkere Antworten zu erzeugen. Wir teilen wichtige Erkenntnisse in der Rubrikkonstruktion, Datenauswahl und Schulung und diskutieren Einschränkungen sowie zukünftige Veröffentlichungen.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a
powerful paradigm for enhancing Large Language Models (LLMs), exemplified by
the success of OpenAI's o-series. In RLVR, rewards are derived from verifiable
signals-such as passing unit tests in code generation or matching correct
answers in mathematical reasoning. While effective, this requirement largely
confines RLVR to domains with automatically checkable outcomes. To overcome
this, we extend the RLVR paradigm to open-ended tasks by integrating
rubric-based rewards, where carefully designed rubrics serve as structured,
model-interpretable criteria for automatic scoring of subjective outputs. We
construct, to our knowledge, the largest rubric reward system to date, with
over 10,000 rubrics from humans, LLMs, or a hybrid human-LLM collaboration.
Implementing rubric-based RL is challenging; we tackle these issues with a
clear framework and present an open-sourced Qwen-30B-A3B model with notable
gains: 1) With only 5K+ samples, our system improves by +5.2% on open-ended
benchmarks (especially humanities), outperforming a 671B DeepSeek-V3 model by
+2.4%, while preserving general and reasoning abilities. 2) Our method provides
fine-grained stylistic control, using rubrics as anchors to mitigate the
"AI-like" tone and produce more human-like, expressive responses. We share key
lessons in rubric construction, data selection, and training, and discuss
limitations and future releases.