Semantisch bewusste Belohnungen für offenes R1-Training in der freiformbasierten Generierung
Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation
June 18, 2025
Autoren: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
cs.AI
Zusammenfassung
Die Bewertung von offener, langformiger Generierung ist eine Herausforderung, da es schwierig ist, klar zu definieren, was gute von schlechten Ergebnissen unterscheidet. Bestehende Methoden übersehen oft Schlüsselaspekte wie Kohärenz, Stil oder Relevanz oder werden durch die Vortrainingsdaten verzerrt, was die Bewertung von offener, langformiger Generierung zu einem wenig erforschten Problem macht. Um diese Lücke zu schließen, schlagen wir PrefBERT vor, ein Bewertungsmodell zur Evaluierung von offener, langformiger Generierung in GRPO und zur Steuerung des Trainings mit unterschiedlichen Belohnungen für gute und schlechte Ergebnisse. PrefBERT, das auf zwei Datensätzen zur Bewertung von Antworten mit verschiedenen langformigen Stilen und Likert-bewerteter Qualität trainiert wurde, unterstützt GRPO effektiv, indem es besseres semantisches Feedback zur Belohnung bietet als traditionelle Metriken wie ROUGE-L und BERTScore. Durch umfassende Evaluierungen, einschließlich LLM-as-a-Judge, menschliche Bewertungen und qualitative Analysen, zeigen wir, dass PrefBERT, das auf mehrsätzigen und absatzlangen Antworten trainiert wurde, zuverlässig über verschiedene lange Passagen hinweg bleibt und gut mit den überprüfbaren Belohnungen übereinstimmt, die GRPO benötigt. Menschliche Bewertungen bestätigen, dass die Verwendung von PrefBERT als Belohnungssignal zur Schulung von Policy-Modellen Antworten liefert, die besser mit menschlichen Präferenzen übereinstimmen als solche, die mit traditionellen Metriken trainiert wurden. Unser Code ist verfügbar unter https://github.com/zli12321/long_form_rl.
English
Evaluating open-ended long-form generation is challenging because it is hard
to define what clearly separates good from bad outputs. Existing methods often
miss key aspects like coherence, style, or relevance, or are biased by
pretraining data, making open-ended long-form evaluation an underexplored
problem. To address this gap, we propose PrefBERT, a scoring model for
evaluating open-ended long-form generation in GRPO and guiding its training
with distinct rewards for good and bad outputs. Trained on two response
evaluation datasets with diverse long-form styles and Likert-rated quality,
PrefBERT effectively supports GRPO by offering better semantic reward feedback
than traditional metrics ROUGE-L and BERTScore do. Through comprehensive
evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis,
we show that PrefBERT, trained on multi-sentence and paragraph-length
responses, remains reliable across varied long passages and aligns well with
the verifiable rewards GRPO needs. Human evaluations confirm that using
PrefBERT as the reward signal to train policy models yields responses better
aligned with human preferences than those trained with traditional metrics. Our
code is available at https://github.com/zli12321/long_form_rl.