ChatPaper.aiChatPaper

自由形式生成におけるオープンエンドR1トレーニングのための意味論的報酬

Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

June 18, 2025
著者: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
cs.AI

要旨

オープンエンドな長文生成の評価は、良い出力と悪い出力を明確に区別する基準を定義することが難しいため、課題となっています。既存の手法では、一貫性、スタイル、関連性といった重要な側面を見落とすことが多く、事前学習データに偏りがあるため、オープンエンドな長文評価は未開拓の問題となっています。このギャップを埋めるため、我々はPrefBERTを提案します。PrefBERTは、GRPOにおけるオープンエンドな長文生成を評価し、良い出力と悪い出力に対して異なる報酬を与えることでその訓練を導くスコアリングモデルです。多様な長文スタイルとリッカート尺度で評価された品質を持つ2つの応答評価データセットで訓練されたPrefBERTは、従来の指標であるROUGE-LやBERTScoreよりも優れた意味的報酬フィードバックを提供し、GRPOを効果的にサポートします。LLM-as-a-judge、人間による評価、質的分析を含む包括的な評価を通じて、PrefBERTが複数文や段落レベルの応答で訓練されても、様々な長文に対して信頼性を保ち、GRPOが必要とする検証可能な報酬とよく一致することを示します。人間による評価では、PrefBERTを報酬信号として使用して訓練されたポリシーモデルが、従来の指標で訓練されたものよりも人間の好みに沿った応答を生成することを確認しました。我々のコードはhttps://github.com/zli12321/long_form_rlで公開されています。
English
Evaluating open-ended long-form generation is challenging because it is hard to define what clearly separates good from bad outputs. Existing methods often miss key aspects like coherence, style, or relevance, or are biased by pretraining data, making open-ended long-form evaluation an underexplored problem. To address this gap, we propose PrefBERT, a scoring model for evaluating open-ended long-form generation in GRPO and guiding its training with distinct rewards for good and bad outputs. Trained on two response evaluation datasets with diverse long-form styles and Likert-rated quality, PrefBERT effectively supports GRPO by offering better semantic reward feedback than traditional metrics ROUGE-L and BERTScore do. Through comprehensive evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis, we show that PrefBERT, trained on multi-sentence and paragraph-length responses, remains reliable across varied long passages and aligns well with the verifiable rewards GRPO needs. Human evaluations confirm that using PrefBERT as the reward signal to train policy models yields responses better aligned with human preferences than those trained with traditional metrics. Our code is available at https://github.com/zli12321/long_form_rl.
PDF112June 19, 2025