LongRM: Revelando y Desbloqueando el Límite Contextual del Modelado de Recompensas
LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling
October 8, 2025
Autores: Zecheng Tang, Baibei Ji, Quantong Qiu, Haitian Wang, Xiaobo Liang, Juntao Li, Min Zhang
cs.AI
Resumen
El modelo de recompensa (RM, por sus siglas en inglés) desempeña un papel fundamental en la alineación de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) con las preferencias humanas. A medida que las aplicaciones del mundo real involucran cada vez más trayectorias de historial extensas, por ejemplo, en agentes LLM, se vuelve indispensable evaluar si las respuestas de un modelo no solo son de alta calidad, sino también están fundamentadas y son consistentes con el contexto proporcionado. Sin embargo, los RM actuales siguen limitados a entornos de contexto corto y se centran principalmente en atributos a nivel de respuesta (por ejemplo, seguridad o utilidad), mientras que en gran medida descuidan la dimensión crítica de la consistencia entre contexto extenso y respuesta. En este trabajo, presentamos Long-RewardBench, un punto de referencia diseñado específicamente para la evaluación de RM en contextos extensos, que incluye tareas de Comparación por Pares y Mejor de N. Nuestro estudio preliminar revela que incluso los RM generativos más avanzados muestran una fragilidad significativa en escenarios de contexto extenso, fallando en mantener juicios de preferencia conscientes del contexto. Motivados por el análisis de los patrones de fallo observados en las salidas del modelo, proponemos una estrategia de entrenamiento multietapa general que escala eficazmente modelos arbitrarios en RM robustos para contextos extensos (LongRMs). Los experimentos muestran que nuestro enfoque no solo mejora sustancialmente el rendimiento en la evaluación de contextos extensos, sino que también preserva una fuerte capacidad en contextos cortos. Notablemente, nuestro LongRM de 8B supera a líneas base de escala 70B mucho más grandes y coincide con el rendimiento del modelo propietario Gemini 2.5 Pro.
English
Reward model (RM) plays a pivotal role in aligning large language model (LLM)
with human preferences. As real-world applications increasingly involve long
history trajectories, e.g., LLM agent, it becomes indispensable to evaluate
whether a model's responses are not only high-quality but also grounded in and
consistent with the provided context. Yet, current RMs remain confined to
short-context settings and primarily focus on response-level attributes (e.g.,
safety or helpfulness), while largely neglecting the critical dimension of long
context-response consistency. In this work, we introduce Long-RewardBench, a
benchmark specifically designed for long-context RM evaluation, featuring both
Pairwise Comparison and Best-of-N tasks. Our preliminary study reveals that
even state-of-the-art generative RMs exhibit significant fragility in
long-context scenarios, failing to maintain context-aware preference judgments.
Motivated by the analysis of failure patterns observed in model outputs, we
propose a general multi-stage training strategy that effectively scales
arbitrary models into robust Long-context RMs (LongRMs). Experiments show that
our approach not only substantially improves performance on long-context
evaluation but also preserves strong short-context capability. Notably, our 8B
LongRM outperforms much larger 70B-scale baselines and matches the performance
of the proprietary Gemini 2.5 Pro model.