Aprendizado por Reforço com Âncoras de Rubrica

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu como um paradigma poderoso para aprimorar Modelos de Linguagem de Grande Escala (LLMs), exemplificado pelo sucesso da série o da OpenAI. No RLVR, as recompensas são derivadas de sinais verificáveis, como passar em testes unitários na geração de código ou corresponder a respostas corretas no raciocínio matemático. Embora eficaz, esse requisito limita amplamente o RLVR a domínios com resultados automaticamente verificáveis. Para superar isso, estendemos o paradigma RLVR para tarefas abertas, integrando recompensas baseadas em rubricas, onde critérios cuidadosamente projetados servem como estruturas interpretáveis pelo modelo para pontuação automática de saídas subjetivas. Construímos, até onde sabemos, o maior sistema de recompensas por rubricas até o momento, com mais de 10.000 rubricas provenientes de humanos, LLMs ou uma colaboração híbrida humano-LLM. Implementar RL baseado em rubricas é desafiador; abordamos essas questões com uma estrutura clara e apresentamos um modelo de código aberto Qwen-30B-A3B com ganhos notáveis: 1) Com apenas 5K+ amostras, nosso sistema melhora em +5,2% em benchmarks de tarefas abertas (especialmente em humanidades), superando um modelo DeepSeek-V3 de 671B em +2,4%, enquanto preserva habilidades gerais e de raciocínio. 2) Nosso método oferece controle estilístico refinado, usando rubricas como âncoras para mitigar o tom "artificial" e produzir respostas mais humanas e expressivas. Compartilhamos lições-chave na construção de rubricas, seleção de dados e treinamento, e discutimos limitações e lançamentos futuros.

English

Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a powerful paradigm for enhancing Large Language Models (LLMs), exemplified by the success of OpenAI's o-series. In RLVR, rewards are derived from verifiable signals-such as passing unit tests in code generation or matching correct answers in mathematical reasoning. While effective, this requirement largely confines RLVR to domains with automatically checkable outcomes. To overcome this, we extend the RLVR paradigm to open-ended tasks by integrating rubric-based rewards, where carefully designed rubrics serve as structured, model-interpretable criteria for automatic scoring of subjective outputs. We construct, to our knowledge, the largest rubric reward system to date, with over 10,000 rubrics from humans, LLMs, or a hybrid human-LLM collaboration. Implementing rubric-based RL is challenging; we tackle these issues with a clear framework and present an open-sourced Qwen-30B-A3B model with notable gains: 1) With only 5K+ samples, our system improves by +5.2% on open-ended benchmarks (especially humanities), outperforming a 671B DeepSeek-V3 model by +2.4%, while preserving general and reasoning abilities. 2) Our method provides fine-grained stylistic control, using rubrics as anchors to mitigate the "AI-like" tone and produce more human-like, expressive responses. We share key lessons in rubric construction, data selection, and training, and discuss limitations and future releases.

Aprendizado por Reforço com Âncoras de Rubrica

Reinforcement Learning with Rubric Anchors

Resumo

Support