LongRM: Svelare e Sbloccare il Confine Contestuale della Modellazione delle Ricompense
LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling
October 8, 2025
Autori: Zecheng Tang, Baibei Ji, Quantong Qiu, Haitian Wang, Xiaobo Liang, Juntao Li, Min Zhang
cs.AI
Abstract
Il modello di ricompensa (RM) svolge un ruolo fondamentale nell'allineare i grandi modelli linguistici (LLM) con le preferenze umane. Poiché le applicazioni nel mondo reale coinvolgono sempre più traiettorie con una lunga storia, ad esempio gli agenti LLM, diventa indispensabile valutare se le risposte di un modello non siano solo di alta qualità, ma anche radicate e coerenti con il contesto fornito. Tuttavia, gli attuali RM rimangono limitati a contesti brevi e si concentrano principalmente su attributi a livello di risposta (ad esempio, sicurezza o utilità), trascurando in gran parte la dimensione critica della coerenza tra contesto lungo e risposta. In questo lavoro, introduciamo Long-RewardBench, un benchmark specificamente progettato per la valutazione degli RM in contesti lunghi, che include sia compiti di confronto a coppie (Pairwise Comparison) che di selezione del migliore tra N (Best-of-N). Il nostro studio preliminare rivela che anche i modelli generativi RM più avanzati mostrano una significativa fragilità negli scenari con contesto lungo, fallendo nel mantenere giudizi di preferenza consapevoli del contesto. Motivati dall'analisi dei modelli di fallimento osservati negli output dei modelli, proponiamo una strategia di addestramento multi-stadio generale che scala efficacemente modelli arbitrari in RM robusti per contesti lunghi (LongRMs). Gli esperimenti dimostrano che il nostro approccio non solo migliora sostanzialmente le prestazioni nella valutazione di contesti lunghi, ma preserva anche una forte capacità nei contesti brevi. In particolare, il nostro LongRM da 8B supera baseline molto più grandi da 70B e raggiunge le prestazioni del modello proprietario Gemini 2.5 Pro.
English
Reward model (RM) plays a pivotal role in aligning large language model (LLM)
with human preferences. As real-world applications increasingly involve long
history trajectories, e.g., LLM agent, it becomes indispensable to evaluate
whether a model's responses are not only high-quality but also grounded in and
consistent with the provided context. Yet, current RMs remain confined to
short-context settings and primarily focus on response-level attributes (e.g.,
safety or helpfulness), while largely neglecting the critical dimension of long
context-response consistency. In this work, we introduce Long-RewardBench, a
benchmark specifically designed for long-context RM evaluation, featuring both
Pairwise Comparison and Best-of-N tasks. Our preliminary study reveals that
even state-of-the-art generative RMs exhibit significant fragility in
long-context scenarios, failing to maintain context-aware preference judgments.
Motivated by the analysis of failure patterns observed in model outputs, we
propose a general multi-stage training strategy that effectively scales
arbitrary models into robust Long-context RMs (LongRMs). Experiments show that
our approach not only substantially improves performance on long-context
evaluation but also preserves strong short-context capability. Notably, our 8B
LongRM outperforms much larger 70B-scale baselines and matches the performance
of the proprietary Gemini 2.5 Pro model.