LongRM: Revelando e Desbloqueando o Limite de Contexto na Modelagem de Recompensas
LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling
October 8, 2025
Autores: Zecheng Tang, Baibei Ji, Quantong Qiu, Haitian Wang, Xiaobo Liang, Juntao Li, Min Zhang
cs.AI
Resumo
O modelo de recompensa (RM) desempenha um papel fundamental no alinhamento de grandes modelos de linguagem (LLM) com as preferências humanas. À medida que as aplicações do mundo real envolvem cada vez mais trajetórias de histórico longo, por exemplo, agentes LLM, torna-se indispensável avaliar se as respostas de um modelo não são apenas de alta qualidade, mas também fundamentadas e consistentes com o contexto fornecido. No entanto, os RMs atuais permanecem limitados a configurações de contexto curto e focam principalmente em atributos no nível da resposta (por exemplo, segurança ou utilidade), enquanto negligenciam amplamente a dimensão crítica da consistência entre contexto longo e resposta. Neste trabalho, apresentamos o Long-RewardBench, um benchmark projetado especificamente para avaliação de RM em contexto longo, que inclui tarefas de Comparação Pareada e Melhor-de-N. Nosso estudo preliminar revela que mesmo os RMs generativos mais avançados exibem fragilidade significativa em cenários de contexto longo, falhando em manter julgamentos de preferência conscientes do contexto. Motivados pela análise dos padrões de falha observados nas saídas dos modelos, propomos uma estratégia geral de treinamento em múltiplas etapas que escala efetivamente modelos arbitrários em RMs robustos para contexto longo (LongRMs). Experimentos mostram que nossa abordagem não apenas melhora substancialmente o desempenho na avaliação de contexto longo, mas também preserva uma forte capacidade em contexto curto. Notavelmente, nosso LongRM de 8B supera baselines muito maiores de escala 70B e iguala o desempenho do modelo proprietário Gemini 2.5 Pro.
English
Reward model (RM) plays a pivotal role in aligning large language model (LLM)
with human preferences. As real-world applications increasingly involve long
history trajectories, e.g., LLM agent, it becomes indispensable to evaluate
whether a model's responses are not only high-quality but also grounded in and
consistent with the provided context. Yet, current RMs remain confined to
short-context settings and primarily focus on response-level attributes (e.g.,
safety or helpfulness), while largely neglecting the critical dimension of long
context-response consistency. In this work, we introduce Long-RewardBench, a
benchmark specifically designed for long-context RM evaluation, featuring both
Pairwise Comparison and Best-of-N tasks. Our preliminary study reveals that
even state-of-the-art generative RMs exhibit significant fragility in
long-context scenarios, failing to maintain context-aware preference judgments.
Motivated by the analysis of failure patterns observed in model outputs, we
propose a general multi-stage training strategy that effectively scales
arbitrary models into robust Long-context RMs (LongRMs). Experiments show that
our approach not only substantially improves performance on long-context
evaluation but also preserves strong short-context capability. Notably, our 8B
LongRM outperforms much larger 70B-scale baselines and matches the performance
of the proprietary Gemini 2.5 Pro model.