Semantisch Bewuste Beloningen voor Open-Einde R1 Training in Vrije-Vorm Generatie
Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation
June 18, 2025
Auteurs: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
cs.AI
Samenvatting
Het evalueren van open-ended langvormige generatie is uitdagend omdat het moeilijk is om duidelijk te definiëren wat goede van slechte uitvoer onderscheidt. Bestaande methoden missen vaak cruciale aspecten zoals samenhang, stijl of relevantie, of worden beïnvloed door vooraf getrainde data, waardoor de evaluatie van open-ended langvormige generatie een onderbelicht probleem blijft. Om deze kloof te overbruggen, stellen we PrefBERT voor, een scoringsmodel voor het evalueren van open-ended langvormige generatie in GRPO en het begeleiden van de training met verschillende beloningen voor goede en slechte uitvoer. Getraind op twee datasets voor respons-evaluatie met diverse langvormige stijlen en Likert-gewaardeerde kwaliteit, ondersteunt PrefBERT GRPO effectief door betere semantische beloningsfeedback te bieden dan traditionele metrieken zoals ROUGE-L en BERTScore. Door middel van uitgebreide evaluaties, waaronder LLM-als-rechter, menselijke beoordelingen en kwalitatieve analyse, tonen we aan dat PrefBERT, getraind op multi-zins- en paragraaflengte-responsen, betrouwbaar blijft over verschillende lange passages en goed aansluit bij de verifieerbare beloningen die GRPO nodig heeft. Menselijke evaluaties bevestigen dat het gebruik van PrefBERT als beloningssignaal voor het trainen van beleidsmodellen resulteert in responsen die beter aansluiten bij menselijke voorkeuren dan die getraind met traditionele metrieken. Onze code is beschikbaar op https://github.com/zli12321/long_form_rl.
English
Evaluating open-ended long-form generation is challenging because it is hard
to define what clearly separates good from bad outputs. Existing methods often
miss key aspects like coherence, style, or relevance, or are biased by
pretraining data, making open-ended long-form evaluation an underexplored
problem. To address this gap, we propose PrefBERT, a scoring model for
evaluating open-ended long-form generation in GRPO and guiding its training
with distinct rewards for good and bad outputs. Trained on two response
evaluation datasets with diverse long-form styles and Likert-rated quality,
PrefBERT effectively supports GRPO by offering better semantic reward feedback
than traditional metrics ROUGE-L and BERTScore do. Through comprehensive
evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis,
we show that PrefBERT, trained on multi-sentence and paragraph-length
responses, remains reliable across varied long passages and aligns well with
the verifiable rewards GRPO needs. Human evaluations confirm that using
PrefBERT as the reward signal to train policy models yields responses better
aligned with human preferences than those trained with traditional metrics. Our
code is available at https://github.com/zli12321/long_form_rl.