ChatPaper.aiChatPaper

Семантически осознанные вознаграждения для обучения с открытым концом R1 в свободной генерации текста

Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

June 18, 2025
Авторы: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
cs.AI

Аннотация

Оценка открытой генерации длинных текстов представляет собой сложную задачу, поскольку трудно четко определить, что отличает хорошие результаты от плохих. Существующие методы часто упускают ключевые аспекты, такие как связность, стиль или релевантность, или подвержены влиянию предобученных данных, что делает оценку открытой генерации длинных текстов малоизученной проблемой. Для устранения этого пробела мы предлагаем PrefBERT — модель оценки для анализа открытой генерации длинных текстов в GRPO и управления ее обучением с использованием различных вознаграждений за хорошие и плохие результаты. Обучившись на двух наборах данных для оценки ответов с разнообразными стилями длинных текстов и качеством, оцененным по шкале Лайкерта, PrefBERT эффективно поддерживает GRPO, предоставляя более качественную семантическую обратную связь по сравнению с традиционными метриками ROUGE-L и BERTScore. Благодаря всесторонним оценкам, включая использование LLM в качестве судьи, человеческие оценки и качественный анализ, мы показываем, что PrefBERT, обученный на многословных и параграфных ответах, остается надежным для различных длинных текстов и хорошо согласуется с проверяемыми вознаграждениями, необходимыми GRPO. Человеческие оценки подтверждают, что использование PrefBERT в качестве сигнала вознаграждения для обучения моделей политик приводит к ответам, которые лучше соответствуют человеческим предпочтениям, чем те, которые обучены с использованием традиционных метрик. Наш код доступен по адресу https://github.com/zli12321/long_form_rl.
English
Evaluating open-ended long-form generation is challenging because it is hard to define what clearly separates good from bad outputs. Existing methods often miss key aspects like coherence, style, or relevance, or are biased by pretraining data, making open-ended long-form evaluation an underexplored problem. To address this gap, we propose PrefBERT, a scoring model for evaluating open-ended long-form generation in GRPO and guiding its training with distinct rewards for good and bad outputs. Trained on two response evaluation datasets with diverse long-form styles and Likert-rated quality, PrefBERT effectively supports GRPO by offering better semantic reward feedback than traditional metrics ROUGE-L and BERTScore do. Through comprehensive evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis, we show that PrefBERT, trained on multi-sentence and paragraph-length responses, remains reliable across varied long passages and aligns well with the verifiable rewards GRPO needs. Human evaluations confirm that using PrefBERT as the reward signal to train policy models yields responses better aligned with human preferences than those trained with traditional metrics. Our code is available at https://github.com/zli12321/long_form_rl.
PDF112June 19, 2025