Récompenses sémantiquement conscientes pour l'entraînement ouvert R1 dans la génération libre
Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation
June 18, 2025
Auteurs: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
cs.AI
Résumé
L'évaluation de la génération ouverte et de longue durée est un défi, car il est difficile de définir ce qui distingue clairement les bonnes des mauvaises sorties. Les méthodes existantes négligent souvent des aspects clés tels que la cohérence, le style ou la pertinence, ou sont biaisées par les données de pré-entraînement, faisant de l'évaluation de la génération ouverte et de longue durée un problème peu exploré. Pour combler cette lacune, nous proposons PrefBERT, un modèle de notation pour évaluer la génération ouverte et de longue durée dans GRPO et guider son entraînement avec des récompenses distinctes pour les bonnes et les mauvaises sorties. Entraîné sur deux ensembles de données d'évaluation de réponses avec des styles variés de longue durée et une qualité notée sur l'échelle de Likert, PrefBERT soutient efficacement GRPO en offrant un retour de récompense sémantique supérieur à celui des métriques traditionnelles ROUGE-L et BERTScore. Grâce à des évaluations approfondies, incluant LLM-comme-juge, des notations humaines et une analyse qualitative, nous montrons que PrefBERT, entraîné sur des réponses de longueur multi-phrases et paragraphes, reste fiable sur des passages longs variés et s'aligne bien avec les récompenses vérifiables dont GRPO a besoin. Les évaluations humaines confirment que l'utilisation de PrefBERT comme signal de récompense pour entraîner les modèles de politique produit des réponses mieux alignées avec les préférences humaines que celles entraînées avec des métriques traditionnelles. Notre code est disponible à l'adresse https://github.com/zli12321/long_form_rl.
English
Evaluating open-ended long-form generation is challenging because it is hard
to define what clearly separates good from bad outputs. Existing methods often
miss key aspects like coherence, style, or relevance, or are biased by
pretraining data, making open-ended long-form evaluation an underexplored
problem. To address this gap, we propose PrefBERT, a scoring model for
evaluating open-ended long-form generation in GRPO and guiding its training
with distinct rewards for good and bad outputs. Trained on two response
evaluation datasets with diverse long-form styles and Likert-rated quality,
PrefBERT effectively supports GRPO by offering better semantic reward feedback
than traditional metrics ROUGE-L and BERTScore do. Through comprehensive
evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis,
we show that PrefBERT, trained on multi-sentence and paragraph-length
responses, remains reliable across varied long passages and aligns well with
the verifiable rewards GRPO needs. Human evaluations confirm that using
PrefBERT as the reward signal to train policy models yields responses better
aligned with human preferences than those trained with traditional metrics. Our
code is available at https://github.com/zli12321/long_form_rl.