ChatPaper.aiChatPaper

Ricompense Semanticamente Consapevoli per l'Addestramento Open-Ended R1 nella Generazione Libera

Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

June 18, 2025
Autori: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
cs.AI

Abstract

Valutare la generazione aperta e di lunga durata è complesso poiché è difficile definire cosa separi chiaramente gli output buoni da quelli scadenti. I metodi esistenti spesso trascurano aspetti chiave come coerenza, stile o pertinenza, o sono influenzati dai dati di pre-addestramento, rendendo la valutazione della generazione aperta e di lunga durata un problema poco esplorato. Per colmare questa lacuna, proponiamo PrefBERT, un modello di punteggio per valutare la generazione aperta e di lunga durata in GRPO e guidarne l'addestramento con ricompense distinte per output buoni e scadenti. Addestrato su due dataset di valutazione delle risposte con stili di lunga durata vari e qualità valutata su scala Likert, PrefBERT supporta efficacemente GRPO fornendo un feedback di ricompensa semantica migliore rispetto alle metriche tradizionali ROUGE-L e BERTScore. Attraverso valutazioni complete, tra cui LLM-as-a-judge, valutazioni umane e analisi qualitative, dimostriamo che PrefBERT, addestrato su risposte di lunghezza multi-frase e paragrafo, rimane affidabile su passaggi lunghi vari e si allinea bene con le ricompense verificabili di cui GRPO ha bisogno. Le valutazioni umane confermano che l'uso di PrefBERT come segnale di ricompensa per addestrare i modelli di policy produce risposte più allineate con le preferenze umane rispetto a quelle addestrate con metriche tradizionali. Il nostro codice è disponibile all'indirizzo https://github.com/zli12321/long_form_rl.
English
Evaluating open-ended long-form generation is challenging because it is hard to define what clearly separates good from bad outputs. Existing methods often miss key aspects like coherence, style, or relevance, or are biased by pretraining data, making open-ended long-form evaluation an underexplored problem. To address this gap, we propose PrefBERT, a scoring model for evaluating open-ended long-form generation in GRPO and guiding its training with distinct rewards for good and bad outputs. Trained on two response evaluation datasets with diverse long-form styles and Likert-rated quality, PrefBERT effectively supports GRPO by offering better semantic reward feedback than traditional metrics ROUGE-L and BERTScore do. Through comprehensive evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis, we show that PrefBERT, trained on multi-sentence and paragraph-length responses, remains reliable across varied long passages and aligns well with the verifiable rewards GRPO needs. Human evaluations confirm that using PrefBERT as the reward signal to train policy models yields responses better aligned with human preferences than those trained with traditional metrics. Our code is available at https://github.com/zli12321/long_form_rl.
PDF132June 19, 2025