LongRM : Révéler et déverrouiller les limites contextuelles de la modélisation des récompenses
LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling
October 8, 2025
papers.authors: Zecheng Tang, Baibei Ji, Quantong Qiu, Haitian Wang, Xiaobo Liang, Juntao Li, Min Zhang
cs.AI
papers.abstract
Le modèle de récompense (RM) joue un rôle central dans l'alignement des grands modèles de langage (LLM) avec les préférences humaines. Alors que les applications réelles impliquent de plus en plus des trajectoires historiques longues, par exemple dans le cas des agents LLM, il devient indispensable d'évaluer si les réponses d'un modèle sont non seulement de haute qualité, mais également ancrées et cohérentes avec le contexte fourni. Pourtant, les RM actuels restent limités à des contextes courts et se concentrent principalement sur des attributs au niveau de la réponse (par exemple, la sécurité ou l'utilité), tout en négligeant largement la dimension critique de la cohérence entre le contexte long et la réponse. Dans ce travail, nous introduisons Long-RewardBench, un benchmark spécifiquement conçu pour l'évaluation des RM en contexte long, comprenant à la fois des tâches de comparaison par paires et des tâches de sélection du meilleur parmi N. Notre étude préliminaire révèle que même les RM génératifs les plus avancés présentent une fragilité significative dans les scénarios à contexte long, échouant à maintenir des jugements de préférence conscients du contexte. Motivés par l'analyse des modèles d'échec observés dans les sorties des modèles, nous proposons une stratégie d'entraînement multi-étapes générale qui permet de transformer efficacement des modèles arbitraires en RM robustes pour contextes longs (LongRMs). Les expériences montrent que notre approche améliore considérablement les performances dans les évaluations en contexte long tout en préservant une forte capacité en contexte court. Notamment, notre LongRM de 8 milliards de paramètres surpasse des modèles de référence beaucoup plus grands (70 milliards de paramètres) et atteint des performances comparables à celles du modèle propriétaire Gemini 2.5 Pro.
English
Reward model (RM) plays a pivotal role in aligning large language model (LLM)
with human preferences. As real-world applications increasingly involve long
history trajectories, e.g., LLM agent, it becomes indispensable to evaluate
whether a model's responses are not only high-quality but also grounded in and
consistent with the provided context. Yet, current RMs remain confined to
short-context settings and primarily focus on response-level attributes (e.g.,
safety or helpfulness), while largely neglecting the critical dimension of long
context-response consistency. In this work, we introduce Long-RewardBench, a
benchmark specifically designed for long-context RM evaluation, featuring both
Pairwise Comparison and Best-of-N tasks. Our preliminary study reveals that
even state-of-the-art generative RMs exhibit significant fragility in
long-context scenarios, failing to maintain context-aware preference judgments.
Motivated by the analysis of failure patterns observed in model outputs, we
propose a general multi-stage training strategy that effectively scales
arbitrary models into robust Long-context RMs (LongRMs). Experiments show that
our approach not only substantially improves performance on long-context
evaluation but also preserves strong short-context capability. Notably, our 8B
LongRM outperforms much larger 70B-scale baselines and matches the performance
of the proprietary Gemini 2.5 Pro model.