LongRM: Het onthullen en ontgrendelen van de contextgrens van beloningsmodellering
LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling
October 8, 2025
Auteurs: Zecheng Tang, Baibei Ji, Quantong Qiu, Haitian Wang, Xiaobo Liang, Juntao Li, Min Zhang
cs.AI
Samenvatting
Het beloningsmodel (RM) speelt een cruciale rol bij het afstemmen van grote taalmodellen (LLM) op menselijke voorkeuren. Aangezien real-world toepassingen steeds vaker lange historische trajecten omvatten, zoals bij LLM-agenten, wordt het onmisbaar om te evalueren of de reacties van een model niet alleen van hoge kwaliteit zijn, maar ook verankerd en consistent zijn met de geboden context. Toch blijven huidige RM's beperkt tot kort-context instellingen en richten ze zich voornamelijk op kenmerken op reactieniveau (bijv. veiligheid of behulpzaamheid), terwijl de kritische dimensie van lange context-reactieconsistentie grotendeels wordt verwaarloosd. In dit werk introduceren we Long-RewardBench, een benchmark specifiek ontworpen voor de evaluatie van lange-context RM's, met zowel Pairwise Comparison- als Best-of-N-taken. Onze voorlopige studie toont aan dat zelfs state-of-the-art generatieve RM's aanzienlijke kwetsbaarheid vertonen in lange-context scenario's, waarbij ze er niet in slagen contextbewuste voorkeursbeoordelingen te handhaven. Gemotiveerd door de analyse van foutpatronen die worden waargenomen in modeloutputs, stellen we een algemene meerfasige trainingsstrategie voor die willekeurige modellen effectief schaalt naar robuuste Lange-context RM's (LongRMs). Experimenten tonen aan dat onze aanpak niet alleen de prestaties bij lange-context evaluatie aanzienlijk verbetert, maar ook een sterke kort-context capaciteit behoudt. Opmerkelijk is dat ons 8B LongRM veel grotere 70B-schaal baselines overtreft en de prestaties evenaart van het propriëtaire Gemini 2.5 Pro-model.
English
Reward model (RM) plays a pivotal role in aligning large language model (LLM)
with human preferences. As real-world applications increasingly involve long
history trajectories, e.g., LLM agent, it becomes indispensable to evaluate
whether a model's responses are not only high-quality but also grounded in and
consistent with the provided context. Yet, current RMs remain confined to
short-context settings and primarily focus on response-level attributes (e.g.,
safety or helpfulness), while largely neglecting the critical dimension of long
context-response consistency. In this work, we introduce Long-RewardBench, a
benchmark specifically designed for long-context RM evaluation, featuring both
Pairwise Comparison and Best-of-N tasks. Our preliminary study reveals that
even state-of-the-art generative RMs exhibit significant fragility in
long-context scenarios, failing to maintain context-aware preference judgments.
Motivated by the analysis of failure patterns observed in model outputs, we
propose a general multi-stage training strategy that effectively scales
arbitrary models into robust Long-context RMs (LongRMs). Experiments show that
our approach not only substantially improves performance on long-context
evaluation but also preserves strong short-context capability. Notably, our 8B
LongRM outperforms much larger 70B-scale baselines and matches the performance
of the proprietary Gemini 2.5 Pro model.