ChatPaper.aiChatPaper

Обучение с подкреплением с использованием рубричных якорей

Reinforcement Learning with Rubric Anchors

August 18, 2025
Авторы: Zenan Huang, Yihong Zhuang, Guoshan Lu, Zeyu Qin, Haokai Xu, Tianyu Zhao, Ru Peng, Jiaqi Hu, Zhanming Shen, Xiaomeng Hu, Xijun Gu, Peiyi Tu, Jiaxin Liu, Wenyu Chen, Yuzhuo Fu, Zhiting Fan, Yanmei Gu, Yuanyuan Wang, Zhengkai Yang, Jianguo Li, Junbo Zhao
cs.AI

Аннотация

Обучение с подкреплением на основе проверяемых наград (RLVR) стало мощной парадигмой для улучшения больших языковых моделей (LLM), что подтверждается успехом o-серии от OpenAI. В RLVR награды извлекаются из проверяемых сигналов, таких как прохождение модульных тестов в генерации кода или соответствие правильным ответам в математических рассуждениях. Хотя этот подход эффективен, он в значительной степени ограничивает RLVR областями с автоматически проверяемыми результатами. Чтобы преодолеть это, мы расширяем парадигму RLVR на задачи с открытым концом, интегрируя награды на основе рубрик, где тщательно разработанные рубрики служат структурированными, интерпретируемыми моделью критериями для автоматической оценки субъективных результатов. Мы создаем, насколько нам известно, крупнейшую систему рубричных наград на сегодняшний день, включающую более 10 000 рубрик, разработанных людьми, LLM или в результате гибридного сотрудничества человека и LLM. Реализация RL на основе рубрик сопряжена с трудностями; мы решаем эти проблемы с помощью четкой структуры и представляем открытую модель Qwen-30B-A3B, которая демонстрирует значительные улучшения: 1) Всего на 5K+ образцах наша система улучшает результаты на +5,2% на тестах с открытым концом (особенно в гуманитарных науках), превосходя модель DeepSeek-V3 с 671B параметров на +2,4%, сохраняя при этом общие и логические способности. 2) Наш метод обеспечивает детализированный стилистический контроль, используя рубрики как якоря для смягчения "искусственного" тона и создания более человечных и выразительных ответов. Мы делимся ключевыми уроками в построении рубрик, выборе данных и обучении, а также обсуждаем ограничения и будущие релизы.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a powerful paradigm for enhancing Large Language Models (LLMs), exemplified by the success of OpenAI's o-series. In RLVR, rewards are derived from verifiable signals-such as passing unit tests in code generation or matching correct answers in mathematical reasoning. While effective, this requirement largely confines RLVR to domains with automatically checkable outcomes. To overcome this, we extend the RLVR paradigm to open-ended tasks by integrating rubric-based rewards, where carefully designed rubrics serve as structured, model-interpretable criteria for automatic scoring of subjective outputs. We construct, to our knowledge, the largest rubric reward system to date, with over 10,000 rubrics from humans, LLMs, or a hybrid human-LLM collaboration. Implementing rubric-based RL is challenging; we tackle these issues with a clear framework and present an open-sourced Qwen-30B-A3B model with notable gains: 1) With only 5K+ samples, our system improves by +5.2% on open-ended benchmarks (especially humanities), outperforming a 671B DeepSeek-V3 model by +2.4%, while preserving general and reasoning abilities. 2) Our method provides fine-grained stylistic control, using rubrics as anchors to mitigate the "AI-like" tone and produce more human-like, expressive responses. We share key lessons in rubric construction, data selection, and training, and discuss limitations and future releases.
PDF62August 19, 2025