Récompenses sémantiquement conscientes pour l'entraînement ouvert R1 dans la génération libre

papers.abstract

L'évaluation de la génération ouverte et de longue durée est un défi, car il est difficile de définir ce qui distingue clairement les bonnes des mauvaises sorties. Les méthodes existantes négligent souvent des aspects clés tels que la cohérence, le style ou la pertinence, ou sont biaisées par les données de pré-entraînement, faisant de l'évaluation de la génération ouverte et de longue durée un problème peu exploré. Pour combler cette lacune, nous proposons PrefBERT, un modèle de notation pour évaluer la génération ouverte et de longue durée dans GRPO et guider son entraînement avec des récompenses distinctes pour les bonnes et les mauvaises sorties. Entraîné sur deux ensembles de données d'évaluation de réponses avec des styles variés de longue durée et une qualité notée sur l'échelle de Likert, PrefBERT soutient efficacement GRPO en offrant un retour de récompense sémantique supérieur à celui des métriques traditionnelles ROUGE-L et BERTScore. Grâce à des évaluations approfondies, incluant LLM-comme-juge, des notations humaines et une analyse qualitative, nous montrons que PrefBERT, entraîné sur des réponses de longueur multi-phrases et paragraphes, reste fiable sur des passages longs variés et s'aligne bien avec les récompenses vérifiables dont GRPO a besoin. Les évaluations humaines confirment que l'utilisation de PrefBERT comme signal de récompense pour entraîner les modèles de politique produit des réponses mieux alignées avec les préférences humaines que celles entraînées avec des métriques traditionnelles. Notre code est disponible à l'adresse https://github.com/zli12321/long_form_rl.

English

Evaluating open-ended long-form generation is challenging because it is hard to define what clearly separates good from bad outputs. Existing methods often miss key aspects like coherence, style, or relevance, or are biased by pretraining data, making open-ended long-form evaluation an underexplored problem. To address this gap, we propose PrefBERT, a scoring model for evaluating open-ended long-form generation in GRPO and guiding its training with distinct rewards for good and bad outputs. Trained on two response evaluation datasets with diverse long-form styles and Likert-rated quality, PrefBERT effectively supports GRPO by offering better semantic reward feedback than traditional metrics ROUGE-L and BERTScore do. Through comprehensive evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis, we show that PrefBERT, trained on multi-sentence and paragraph-length responses, remains reliable across varied long passages and aligns well with the verifiable rewards GRPO needs. Human evaluations confirm that using PrefBERT as the reward signal to train policy models yields responses better aligned with human preferences than those trained with traditional metrics. Our code is available at https://github.com/zli12321/long_form_rl.

Récompenses sémantiquement conscientes pour l'entraînement ouvert R1 dans la génération libre

Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

papers.abstract

Support