ChatPaper.aiChatPaper

Aprendizaje por Refuerzo con Anclajes de Rúbrica

Reinforcement Learning with Rubric Anchors

August 18, 2025
Autores: Zenan Huang, Yihong Zhuang, Guoshan Lu, Zeyu Qin, Haokai Xu, Tianyu Zhao, Ru Peng, Jiaqi Hu, Zhanming Shen, Xiaomeng Hu, Xijun Gu, Peiyi Tu, Jiaxin Liu, Wenyu Chen, Yuzhuo Fu, Zhiting Fan, Yanmei Gu, Yuanyuan Wang, Zhengkai Yang, Jianguo Li, Junbo Zhao
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un paradigma poderoso para mejorar los Modelos de Lenguaje a Gran Escala (LLMs), ejemplificado por el éxito de la serie o de OpenAI. En RLVR, las recompensas se derivan de señales verificables, como superar pruebas unitarias en la generación de código o coincidir con respuestas correctas en razonamiento matemático. Aunque efectivo, este requisito limita en gran medida el RLVR a dominios con resultados automáticamente verificables. Para superar esto, extendemos el paradigma RLVR a tareas de final abierto mediante la integración de recompensas basadas en rúbricas, donde rúbricas cuidadosamente diseñadas sirven como criterios estructurados e interpretables por el modelo para la puntuación automática de resultados subjetivos. Construimos, hasta donde sabemos, el sistema de recompensas basado en rúbricas más grande hasta la fecha, con más de 10,000 rúbricas provenientes de humanos, LLMs o una colaboración híbrida humano-LLM. Implementar RL basado en rúbricas es un desafío; abordamos estos problemas con un marco claro y presentamos un modelo de código abierto Qwen-30B-A3B con avances notables: 1) Con solo 5K+ muestras, nuestro sistema mejora en un +5.2% en benchmarks de final abierto (especialmente en humanidades), superando a un modelo DeepSeek-V3 de 671B en un +2.4%, mientras preserva las habilidades generales y de razonamiento. 2) Nuestro método proporciona un control estilístico detallado, utilizando rúbricas como anclas para mitigar el tono "similar a IA" y producir respuestas más humanas y expresivas. Compartimos lecciones clave en la construcción de rúbricas, selección de datos y entrenamiento, y discutimos limitaciones y futuros lanzamientos.
English
Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a powerful paradigm for enhancing Large Language Models (LLMs), exemplified by the success of OpenAI's o-series. In RLVR, rewards are derived from verifiable signals-such as passing unit tests in code generation or matching correct answers in mathematical reasoning. While effective, this requirement largely confines RLVR to domains with automatically checkable outcomes. To overcome this, we extend the RLVR paradigm to open-ended tasks by integrating rubric-based rewards, where carefully designed rubrics serve as structured, model-interpretable criteria for automatic scoring of subjective outputs. We construct, to our knowledge, the largest rubric reward system to date, with over 10,000 rubrics from humans, LLMs, or a hybrid human-LLM collaboration. Implementing rubric-based RL is challenging; we tackle these issues with a clear framework and present an open-sourced Qwen-30B-A3B model with notable gains: 1) With only 5K+ samples, our system improves by +5.2% on open-ended benchmarks (especially humanities), outperforming a 671B DeepSeek-V3 model by +2.4%, while preserving general and reasoning abilities. 2) Our method provides fine-grained stylistic control, using rubrics as anchors to mitigate the "AI-like" tone and produce more human-like, expressive responses. We share key lessons in rubric construction, data selection, and training, and discuss limitations and future releases.
PDF62August 19, 2025