Recompensas Semanticamente Conscientes para Treinamento Aberto R1 em Geração de Formato Livre
Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation
June 18, 2025
Autores: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
cs.AI
Resumo
A avaliação de geração de texto aberto e de longa duração é desafiadora porque é difícil definir o que claramente separa boas de más saídas. Os métodos existentes frequentemente deixam de capturar aspectos-chave como coerência, estilo ou relevância, ou são influenciados pelos dados de pré-treinamento, tornando a avaliação de geração aberta e de longa duração um problema pouco explorado. Para abordar essa lacuna, propomos o PrefBERT, um modelo de pontuação para avaliar a geração aberta e de longa duração no GRPO e orientar seu treinamento com recompensas distintas para boas e más saídas. Treinado em dois conjuntos de dados de avaliação de respostas com diversos estilos de texto longo e qualidade avaliada por escala Likert, o PrefBERT suporta efetivamente o GRPO ao fornecer um feedback de recompensa semântica melhor do que as métricas tradicionais ROUGE-L e BERTScore. Por meio de avaliações abrangentes, incluindo LLM-como-juiz, avaliações humanas e análise qualitativa, mostramos que o PrefBERT, treinado em respostas de múltiplas frases e parágrafos, permanece confiável em diversas passagens longas e se alinha bem com as recompensas verificáveis que o GRPO necessita. Avaliações humanas confirmam que o uso do PrefBERT como sinal de recompensa para treinar modelos de política produz respostas mais alinhadas com as preferências humanas do que aquelas treinadas com métricas tradicionais. Nosso código está disponível em https://github.com/zli12321/long_form_rl.
English
Evaluating open-ended long-form generation is challenging because it is hard
to define what clearly separates good from bad outputs. Existing methods often
miss key aspects like coherence, style, or relevance, or are biased by
pretraining data, making open-ended long-form evaluation an underexplored
problem. To address this gap, we propose PrefBERT, a scoring model for
evaluating open-ended long-form generation in GRPO and guiding its training
with distinct rewards for good and bad outputs. Trained on two response
evaluation datasets with diverse long-form styles and Likert-rated quality,
PrefBERT effectively supports GRPO by offering better semantic reward feedback
than traditional metrics ROUGE-L and BERTScore do. Through comprehensive
evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis,
we show that PrefBERT, trained on multi-sentence and paragraph-length
responses, remains reliable across varied long passages and aligns well with
the verifiable rewards GRPO needs. Human evaluations confirm that using
PrefBERT as the reward signal to train policy models yields responses better
aligned with human preferences than those trained with traditional metrics. Our
code is available at https://github.com/zli12321/long_form_rl.