Think-RM: Обеспечение долгосрочного рассуждения в генеративных моделях вознаграждения

Аннотация

Обучение с подкреплением на основе человеческой обратной связи (RLHF) стало мощной парадигмой пост-обучения для согласования крупных языковых моделей с предпочтениями человека. Основная проблема в RLHF заключается в построении точных сигналов вознаграждения, где традиционные модели вознаграждения Брэдли-Терри (BT RMs) часто страдают от чувствительности к объему и охвату данных, а также уязвимости к взлому вознаграждений. Генеративные модели вознаграждения (GenRMs) предлагают более устойчивую альтернативу, генерируя цепочки рассуждений (CoT) с последующим финальным вознаграждением. Однако существующие GenRMs полагаются на поверхностное, вертикально масштабируемое рассуждение, что ограничивает их способность справляться с тонкими или сложными (например, требующими глубокого анализа) задачами. Более того, их попарные выходы предпочтений несовместимы со стандартными алгоритмами RLHF, которые требуют точечных сигналов вознаграждения. В данной работе мы представляем Think-RM, фреймворк обучения, который позволяет GenRMs осуществлять долгосрочное рассуждение, моделируя внутренний процесс мышления. Вместо создания структурированных, внешне предоставленных рационалов, Think-RM генерирует гибкие, самонаправленные следы рассуждений, поддерживающие такие продвинутые возможности, как саморефлексия, гипотетическое и дивергентное рассуждение. Для развития этих способностей мы сначала разогреваем модели с помощью контролируемого тонкого обучения (SFT) на данных с длинными цепочками рассуждений. Затем мы дополнительно улучшаем долгосрочные способности модели с помощью обучения с подкреплением на основе правил (RL). Кроме того, мы предлагаем новый конвейер попарного RLHF, который напрямую оптимизирует политики, используя попарные предпочтения вознаграждений, устраняя необходимость преобразования в точечные вознаграждения и позволяя более эффективно использовать выходы Think-RM. Эксперименты показывают, что Think-RM достигает передовых результатов на RM-Bench, превосходя как BT RM, так и вертикально масштабируемые GenRM на 8%. В сочетании с нашим попарным конвейером RLHF он демонстрирует превосходную производительность конечной политики по сравнению с традиционными подходами.

English

Reinforcement learning from human feedback (RLHF) has become a powerful post-training paradigm for aligning large language models with human preferences. A core challenge in RLHF is constructing accurate reward signals, where the conventional Bradley-Terry reward models (BT RMs) often suffer from sensitivity to data size and coverage, as well as vulnerability to reward hacking. Generative reward models (GenRMs) offer a more robust alternative by generating chain-of-thought (CoT) rationales followed by a final reward. However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks. Moreover, their pairwise preference outputs are incompatible with standard RLHF algorithms that require pointwise reward signals. In this work, we introduce Think-RM, a training framework that enables long-horizon reasoning in GenRMs by modeling an internal thinking process. Rather than producing structured, externally provided rationales, Think-RM generates flexible, self-guided reasoning traces that support advanced capabilities such as self-reflection, hypothetical reasoning, and divergent reasoning. To elicit these reasoning abilities, we first warm-up the models by supervised fine-tuning (SFT) over long CoT data. We then further improve the model's long-horizon abilities by rule-based reinforcement learning (RL). In addition, we propose a novel pairwise RLHF pipeline that directly optimizes policies using pairwise preference rewards, eliminating the need for pointwise reward conversion and enabling more effective use of Think-RM outputs. Experiments show that Think-RM achieves state-of-the-art results on RM-Bench, outperforming both BT RM and vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline, it demonstrates superior end-policy performance compared to traditional approaches.

Think-RM: Обеспечение долгосрочного рассуждения в генеративных моделях вознаграждения

Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models

Аннотация

Support