ChatPaper.aiChatPaper

자유 형식 생성에서 개방형 R1 훈련을 위한 의미론적 인식 보상

Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

June 18, 2025
저자: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
cs.AI

초록

개방형 장문 생성 평가는 좋은 출력과 나쁜 출력을 명확히 구분하는 기준을 정의하기 어렵기 때문에 도전적인 과제입니다. 기존 방법들은 일관성, 스타일, 관련성과 같은 핵심 요소를 놓치거나, 사전 학습 데이터에 의해 편향되는 경우가 많아, 개방형 장문 평가는 아직 충분히 탐구되지 않은 문제로 남아 있습니다. 이러한 격차를 해결하기 위해, 우리는 GRPO에서 개방형 장문 생성을 평가하고 좋은 출력과 나쁜 출력에 대해 구별된 보상을 통해 훈련을 안내하는 점수 모델인 PrefBERT를 제안합니다. 다양한 장문 스타일과 Likert 평점 품질을 가진 두 개의 응답 평가 데이터셋으로 훈련된 PrefBERT는 전통적인 지표인 ROUGE-L과 BERTScore보다 더 나은 의미론적 보상 피드백을 제공함으로써 GRPO를 효과적으로 지원합니다. LLM-as-a-judge, 인간 평가, 질적 분석을 포함한 포괄적인 평가를 통해, 우리는 다중 문장 및 단락 길이의 응답으로 훈련된 PrefBERT가 다양한 장문에서도 신뢰할 수 있으며 GRPO가 필요로 하는 검증 가능한 보상과 잘 일치함을 보여줍니다. 인간 평가는 PrefBERT를 보상 신호로 사용하여 정책 모델을 훈련할 때 전통적인 지표를 사용한 경우보다 인간의 선호에 더 잘 부합하는 응답을 생성함을 확인합니다. 우리의 코드는 https://github.com/zli12321/long_form_rl에서 확인할 수 있습니다.
English
Evaluating open-ended long-form generation is challenging because it is hard to define what clearly separates good from bad outputs. Existing methods often miss key aspects like coherence, style, or relevance, or are biased by pretraining data, making open-ended long-form evaluation an underexplored problem. To address this gap, we propose PrefBERT, a scoring model for evaluating open-ended long-form generation in GRPO and guiding its training with distinct rewards for good and bad outputs. Trained on two response evaluation datasets with diverse long-form styles and Likert-rated quality, PrefBERT effectively supports GRPO by offering better semantic reward feedback than traditional metrics ROUGE-L and BERTScore do. Through comprehensive evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis, we show that PrefBERT, trained on multi-sentence and paragraph-length responses, remains reliable across varied long passages and aligns well with the verifiable rewards GRPO needs. Human evaluations confirm that using PrefBERT as the reward signal to train policy models yields responses better aligned with human preferences than those trained with traditional metrics. Our code is available at https://github.com/zli12321/long_form_rl.
PDF112June 19, 2025