LongRM: Aufdeckung und Freischaltung der Kontextgrenze des Belohnungsmodellierens
LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling
October 8, 2025
papers.authors: Zecheng Tang, Baibei Ji, Quantong Qiu, Haitian Wang, Xiaobo Liang, Juntao Li, Min Zhang
cs.AI
papers.abstract
Das Belohnungsmodell (Reward Model, RM) spielt eine entscheidende Rolle bei der Ausrichtung großer Sprachmodelle (Large Language Models, LLMs) an menschlichen Präferenzen. Da reale Anwendungen zunehmend lange Verlaufstrajektorien beinhalten, z. B. LLM-Agenten, wird es unerlässlich zu bewerten, ob die Antworten eines Modells nicht nur von hoher Qualität sind, sondern auch im bereitgestellten Kontext verankert und konsistent damit sind. Dennoch bleiben aktuelle RMs auf Kurzkontext-Szenarien beschränkt und konzentrieren sich hauptsächlich auf Antwortattribute (z. B. Sicherheit oder Hilfsbereitschaft), während die kritische Dimension der Langkontext-Antwort-Konsistenz weitgehend vernachlässigt wird. In dieser Arbeit stellen wir Long-RewardBench vor, einen speziell für die Langkontext-RM-Evaluierung entwickelten Benchmark, der sowohl paarweise Vergleiche (Pairwise Comparison) als auch Best-of-N-Aufgaben umfasst. Unsere Vorstudie zeigt, dass selbst state-of-the-art generative RMs in Langkontext-Szenarien erhebliche Schwächen aufweisen und nicht in der Lage sind, kontextbewusste Präferenzurteile aufrechtzuerhalten. Motiviert durch die Analyse der in den Modellausgaben beobachteten Fehlermuster schlagen wir eine allgemeine mehrstufige Trainingsstrategie vor, die beliebige Modelle effektiv in robuste Langkontext-RMs (LongRMs) skalieren kann. Experimente zeigen, dass unser Ansatz nicht nur die Leistung bei der Langkontext-Evaluierung erheblich verbessert, sondern auch eine starke Kurzkontext-Fähigkeit bewahrt. Bemerkenswerterweise übertrifft unser 8B-LongRM deutlich größere 70B-Baselines und erreicht die Leistung des proprietären Gemini 2.5 Pro-Modells.
English
Reward model (RM) plays a pivotal role in aligning large language model (LLM)
with human preferences. As real-world applications increasingly involve long
history trajectories, e.g., LLM agent, it becomes indispensable to evaluate
whether a model's responses are not only high-quality but also grounded in and
consistent with the provided context. Yet, current RMs remain confined to
short-context settings and primarily focus on response-level attributes (e.g.,
safety or helpfulness), while largely neglecting the critical dimension of long
context-response consistency. In this work, we introduce Long-RewardBench, a
benchmark specifically designed for long-context RM evaluation, featuring both
Pairwise Comparison and Best-of-N tasks. Our preliminary study reveals that
even state-of-the-art generative RMs exhibit significant fragility in
long-context scenarios, failing to maintain context-aware preference judgments.
Motivated by the analysis of failure patterns observed in model outputs, we
propose a general multi-stage training strategy that effectively scales
arbitrary models into robust Long-context RMs (LongRMs). Experiments show that
our approach not only substantially improves performance on long-context
evaluation but also preserves strong short-context capability. Notably, our 8B
LongRM outperforms much larger 70B-scale baselines and matches the performance
of the proprietary Gemini 2.5 Pro model.