LongRM: Het onthullen en ontgrendelen van de contextgrens van beloningsmodellering

Samenvatting

Het beloningsmodel (RM) speelt een cruciale rol bij het afstemmen van grote taalmodellen (LLM) op menselijke voorkeuren. Aangezien real-world toepassingen steeds vaker lange historische trajecten omvatten, zoals bij LLM-agenten, wordt het onmisbaar om te evalueren of de reacties van een model niet alleen van hoge kwaliteit zijn, maar ook verankerd en consistent zijn met de geboden context. Toch blijven huidige RM's beperkt tot kort-context instellingen en richten ze zich voornamelijk op kenmerken op reactieniveau (bijv. veiligheid of behulpzaamheid), terwijl de kritische dimensie van lange context-reactieconsistentie grotendeels wordt verwaarloosd. In dit werk introduceren we Long-RewardBench, een benchmark specifiek ontworpen voor de evaluatie van lange-context RM's, met zowel Pairwise Comparison- als Best-of-N-taken. Onze voorlopige studie toont aan dat zelfs state-of-the-art generatieve RM's aanzienlijke kwetsbaarheid vertonen in lange-context scenario's, waarbij ze er niet in slagen contextbewuste voorkeursbeoordelingen te handhaven. Gemotiveerd door de analyse van foutpatronen die worden waargenomen in modeloutputs, stellen we een algemene meerfasige trainingsstrategie voor die willekeurige modellen effectief schaalt naar robuuste Lange-context RM's (LongRMs). Experimenten tonen aan dat onze aanpak niet alleen de prestaties bij lange-context evaluatie aanzienlijk verbetert, maar ook een sterke kort-context capaciteit behoudt. Opmerkelijk is dat ons 8B LongRM veel grotere 70B-schaal baselines overtreft en de prestaties evenaart van het propriëtaire Gemini 2.5 Pro-model.

English

Reward model (RM) plays a pivotal role in aligning large language model (LLM) with human preferences. As real-world applications increasingly involve long history trajectories, e.g., LLM agent, it becomes indispensable to evaluate whether a model's responses are not only high-quality but also grounded in and consistent with the provided context. Yet, current RMs remain confined to short-context settings and primarily focus on response-level attributes (e.g., safety or helpfulness), while largely neglecting the critical dimension of long context-response consistency. In this work, we introduce Long-RewardBench, a benchmark specifically designed for long-context RM evaluation, featuring both Pairwise Comparison and Best-of-N tasks. Our preliminary study reveals that even state-of-the-art generative RMs exhibit significant fragility in long-context scenarios, failing to maintain context-aware preference judgments. Motivated by the analysis of failure patterns observed in model outputs, we propose a general multi-stage training strategy that effectively scales arbitrary models into robust Long-context RMs (LongRMs). Experiments show that our approach not only substantially improves performance on long-context evaluation but also preserves strong short-context capability. Notably, our 8B LongRM outperforms much larger 70B-scale baselines and matches the performance of the proprietary Gemini 2.5 Pro model.

LongRM: Het onthullen en ontgrendelen van de contextgrens van beloningsmodellering

LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling

Samenvatting

Support