ChatPaper.aiChatPaper

Recompensas Semanticamente Conscientes para Treinamento Aberto R1 em Geração de Formato Livre

Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation

June 18, 2025
Autores: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
cs.AI

Resumo

A avaliação de geração de texto aberto e de longa duração é desafiadora porque é difícil definir o que claramente separa boas de más saídas. Os métodos existentes frequentemente deixam de capturar aspectos-chave como coerência, estilo ou relevância, ou são influenciados pelos dados de pré-treinamento, tornando a avaliação de geração aberta e de longa duração um problema pouco explorado. Para abordar essa lacuna, propomos o PrefBERT, um modelo de pontuação para avaliar a geração aberta e de longa duração no GRPO e orientar seu treinamento com recompensas distintas para boas e más saídas. Treinado em dois conjuntos de dados de avaliação de respostas com diversos estilos de texto longo e qualidade avaliada por escala Likert, o PrefBERT suporta efetivamente o GRPO ao fornecer um feedback de recompensa semântica melhor do que as métricas tradicionais ROUGE-L e BERTScore. Por meio de avaliações abrangentes, incluindo LLM-como-juiz, avaliações humanas e análise qualitativa, mostramos que o PrefBERT, treinado em respostas de múltiplas frases e parágrafos, permanece confiável em diversas passagens longas e se alinha bem com as recompensas verificáveis que o GRPO necessita. Avaliações humanas confirmam que o uso do PrefBERT como sinal de recompensa para treinar modelos de política produz respostas mais alinhadas com as preferências humanas do que aquelas treinadas com métricas tradicionais. Nosso código está disponível em https://github.com/zli12321/long_form_rl.
English
Evaluating open-ended long-form generation is challenging because it is hard to define what clearly separates good from bad outputs. Existing methods often miss key aspects like coherence, style, or relevance, or are biased by pretraining data, making open-ended long-form evaluation an underexplored problem. To address this gap, we propose PrefBERT, a scoring model for evaluating open-ended long-form generation in GRPO and guiding its training with distinct rewards for good and bad outputs. Trained on two response evaluation datasets with diverse long-form styles and Likert-rated quality, PrefBERT effectively supports GRPO by offering better semantic reward feedback than traditional metrics ROUGE-L and BERTScore do. Through comprehensive evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis, we show that PrefBERT, trained on multi-sentence and paragraph-length responses, remains reliable across varied long passages and aligns well with the verifiable rewards GRPO needs. Human evaluations confirm that using PrefBERT as the reward signal to train policy models yields responses better aligned with human preferences than those trained with traditional metrics. Our code is available at https://github.com/zli12321/long_form_rl.
PDF142June 19, 2025