ChatPaper.aiChatPaper

В погоне за хвостом: эффективное моделирование вознаграждений на основе рубрик для пост-обучения больших языковых моделей

Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

September 25, 2025
Авторы: Junkai Zhang, Zihao Wang, Lin Gui, Swarnashree Mysore Sathyendra, Jaehwan Jeong, Victor Veitch, Wei Wang, Yunzhong He, Bing Liu, Lifeng Jin
cs.AI

Аннотация

Тонкая настройка с подкреплением (Reinforcement Fine-Tuning, RFT) часто сталкивается с проблемой чрезмерной оптимизации вознаграждения, когда модель политики манипулирует сигналами вознаграждения для достижения высоких баллов, при этом генерируя низкокачественные результаты. Наш теоретический анализ показывает, что ключевая проблема заключается в некорректной спецификации вознаграждения в области высоких значений: неспособность надежно отличать "Отличные" ответы от просто "Хороших". Это мотивирует нас сосредоточиться на области высоких вознаграждений. Однако такие примеры из "хвоста" распределения редки в базовой языковой модели (LLM). Хотя внеполитические примеры (например, от более сильных моделей или переписанные тексты) получить проще, их наивное использование для обучения приводит к некорректной спецификации вознаграждения для политики, которую мы стремимся согласовать. Для решения этой проблемы мы исследуем вознаграждения, основанные на рубриках. По своей сути, рубрики позволяют использовать внеполитические примеры, оставаясь при этом нечувствительными к их артефактам. Чтобы разработать рубрики, которые охватывают область высоких вознаграждений, мы подчеркиваем важность различения между великолепными и разнообразными ответами и предлагаем рабочий процесс для реализации этой идеи. Эмпирически мы демонстрируем, что вознаграждения на основе рубрик существенно снижают проблему чрезмерной оптимизации вознаграждения и обеспечивают эффективное улучшение пост-обучения LLM. Наш код доступен по адресу https://github.com/Jun-Kai-Zhang/rubrics.git.
English
Reinforcement fine-tuning (RFT) often suffers from reward over-optimization, where a policy model hacks the reward signals to achieve high scores while producing low-quality outputs. Our theoretical analysis shows that the key lies in reward misspecification at the high-reward tail: the inability to reliably distinguish Excellent responses from merely Great ones. This motivate us to focus on the high-reward region. However, such tail examples are scarce under the base LLM. While off-policy exemplars (e.g. from stronger models or rewrites) are easier to obtain, naively training on them yields a misspecified reward for the policy we aim to align. To address this, we study rubric-based rewards. By design, rubrics can leverage off-policy examples while remaining insensitive to their artifacts. To elicit rubrics that capture the high-reward tail, we highlight the importance of distinguishing among great and diverse responses, and introduce a workflow to implement this idea. We empirically demonstrate that rubric-based rewards substantially mitigate reward over-optimization and deliver effective LLM post-training improvements. Our code can be accessed at https://github.com/Jun-Kai-Zhang/rubrics.git .
PDF82September 29, 2025