Recompensas Semánticamente Conscientes para el Entrenamiento de R1 de Forma Abierta en Generación de Texto Libre
Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation
June 18, 2025
Autores: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
cs.AI
Resumen
Evaluar la generación abierta de texto extenso es un desafío porque es difícil definir qué separa claramente las buenas de las malas salidas. Los métodos existentes a menudo pasan por alto aspectos clave como la coherencia, el estilo o la relevancia, o están sesgados por los datos de preentrenamiento, lo que convierte la evaluación de texto extenso abierto en un problema poco explorado. Para abordar esta brecha, proponemos PrefBERT, un modelo de puntuación para evaluar la generación abierta de texto extenso en GRPO y guiar su entrenamiento con recompensas distintas para buenas y malas salidas. Entrenado en dos conjuntos de datos de evaluación de respuestas con diversos estilos de texto extenso y calidad calificada en escala Likert, PrefBERT respalda eficazmente a GRPO al ofrecer una retroalimentación de recompensa semántica mejor que las métricas tradicionales ROUGE-L y BERTScore. A través de evaluaciones exhaustivas, incluyendo LLM-como-juez, calificaciones humanas y análisis cualitativo, demostramos que PrefBERT, entrenado en respuestas de múltiples oraciones y párrafos, sigue siendo confiable en pasajes extensos variados y se alinea bien con las recompensas verificables que GRPO necesita. Las evaluaciones humanas confirman que usar PrefBERT como señal de recompensa para entrenar modelos de políticas produce respuestas mejor alineadas con las preferencias humanas que aquellas entrenadas con métricas tradicionales. Nuestro código está disponible en https://github.com/zli12321/long_form_rl.
English
Evaluating open-ended long-form generation is challenging because it is hard
to define what clearly separates good from bad outputs. Existing methods often
miss key aspects like coherence, style, or relevance, or are biased by
pretraining data, making open-ended long-form evaluation an underexplored
problem. To address this gap, we propose PrefBERT, a scoring model for
evaluating open-ended long-form generation in GRPO and guiding its training
with distinct rewards for good and bad outputs. Trained on two response
evaluation datasets with diverse long-form styles and Likert-rated quality,
PrefBERT effectively supports GRPO by offering better semantic reward feedback
than traditional metrics ROUGE-L and BERTScore do. Through comprehensive
evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis,
we show that PrefBERT, trained on multi-sentence and paragraph-length
responses, remains reliable across varied long passages and aligns well with
the verifiable rewards GRPO needs. Human evaluations confirm that using
PrefBERT as the reward signal to train policy models yields responses better
aligned with human preferences than those trained with traditional metrics. Our
code is available at https://github.com/zli12321/long_form_rl.