ChatPaper.aiChatPaper

Persiguiendo la Cola: Modelado Efectivo de Recompensas Basado en Rúbricas para el Post-Entrenamiento de Modelos de Lenguaje a Gran Escala

Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

September 25, 2025
Autores: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
cs.AI

Resumen

El ajuste fino por refuerzo (RFT, por sus siglas en inglés) a menudo sufre de sobreoptimización de recompensas, donde un modelo de política manipula las señales de recompensa para alcanzar puntuaciones altas mientras produce resultados de baja calidad. Nuestro análisis teórico muestra que la clave radica en la mala especificación de la recompensa en la cola de alta recompensa: la incapacidad de distinguir de manera confiable respuestas Excelentes de aquellas que son simplemente Buenas. Esto nos motiva a centrarnos en la región de alta recompensa. Sin embargo, tales ejemplos de la cola son escasos en el modelo base de lenguaje (LLM). Aunque los ejemplos fuera de la política (por ejemplo, de modelos más fuertes o reescrituras) son más fáciles de obtener, entrenar de manera ingenua con ellos produce una recompensa mal especificada para la política que buscamos alinear. Para abordar esto, estudiamos recompensas basadas en rúbricas. Por diseño, las rúbricas pueden aprovechar ejemplos fuera de la política mientras permanecen insensibles a sus artefactos. Para obtener rúbricas que capturen la cola de alta recompensa, destacamos la importancia de distinguir entre respuestas excelentes y diversas, e introducimos un flujo de trabajo para implementar esta idea. Demostramos empíricamente que las recompensas basadas en rúbricas mitigan sustancialmente la sobreoptimización de recompensas y ofrecen mejoras efectivas en el posentrenamiento de LLM. Nuestro código puede consultarse en https://github.com/Jun-Kai-Zhang/rubrics.git.
English
Reinforcement fine-tuning (RFT) often suffers from reward over-optimization, where a policy model hacks the reward signals to achieve high scores while producing low-quality outputs. Our theoretical analysis shows that the key lies in reward misspecification at the high-reward tail: the inability to reliably distinguish Excellent responses from merely Great ones. This motivate us to focus on the high-reward region. However, such tail examples are scarce under the base LLM. While off-policy exemplars (e.g. from stronger models or rewrites) are easier to obtain, naively training on them yields a misspecified reward for the policy we aim to align. To address this, we study rubric-based rewards. By design, rubrics can leverage off-policy examples while remaining insensitive to their artifacts. To elicit rubrics that capture the high-reward tail, we highlight the importance of distinguishing among great and diverse responses, and introduce a workflow to implement this idea. We empirically demonstrate that rubric-based rewards substantially mitigate reward over-optimization and deliver effective LLM post-training improvements. Our code can be accessed at https://github.com/Jun-Kai-Zhang/rubrics.git .
PDF82September 29, 2025