ChatPaper.aiChatPaper

LongRM: Раскрытие и расширение границ контекста в моделировании вознаграждений

LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling

October 8, 2025
Авторы: Zecheng Tang, Baibei Ji, Quantong Qiu, Haitian Wang, Xiaobo Liang, Juntao Li, Min Zhang
cs.AI

Аннотация

Модель вознаграждения (Reward Model, RM) играет ключевую роль в согласовании крупных языковых моделей (Large Language Models, LLM) с человеческими предпочтениями. Поскольку реальные приложения всё чаще включают длинные траектории истории, например, в случае LLM-агентов, становится крайне важным оценивать не только качество ответов модели, но и их соответствие и согласованность с предоставленным контекстом. Однако современные RM остаются ограниченными короткими контекстами и в основном сосредоточены на атрибутах уровня ответа (например, безопасности или полезности), в значительной степени игнорируя критический аспект согласованности длинного контекста и ответа. В данной работе мы представляем Long-RewardBench — бенчмарк, специально разработанный для оценки RM в длинных контекстах, включающий задачи попарного сравнения (Pairwise Comparison) и выбора лучшего из N вариантов (Best-of-N). Наше предварительное исследование показывает, что даже современные генеративные RM демонстрируют значительную уязвимость в сценариях с длинными контекстами, не справляясь с поддержанием контекстно-зависимых суждений о предпочтениях. Вдохновлённые анализом ошибок, наблюдаемых в выходах моделей, мы предлагаем общую многоэтапную стратегию обучения, которая эффективно масштабирует произвольные модели в устойчивые RM для длинных контекстов (LongRMs). Эксперименты показывают, что наш подход не только значительно улучшает производительность на оценках с длинными контекстами, но и сохраняет сильные возможности в коротких контекстах. Примечательно, что наша 8B LongRM превосходит гораздо более крупные базовые модели масштаба 70B и соответствует производительности проприетарной модели Gemini 2.5 Pro.
English
Reward model (RM) plays a pivotal role in aligning large language model (LLM) with human preferences. As real-world applications increasingly involve long history trajectories, e.g., LLM agent, it becomes indispensable to evaluate whether a model's responses are not only high-quality but also grounded in and consistent with the provided context. Yet, current RMs remain confined to short-context settings and primarily focus on response-level attributes (e.g., safety or helpfulness), while largely neglecting the critical dimension of long context-response consistency. In this work, we introduce Long-RewardBench, a benchmark specifically designed for long-context RM evaluation, featuring both Pairwise Comparison and Best-of-N tasks. Our preliminary study reveals that even state-of-the-art generative RMs exhibit significant fragility in long-context scenarios, failing to maintain context-aware preference judgments. Motivated by the analysis of failure patterns observed in model outputs, we propose a general multi-stage training strategy that effectively scales arbitrary models into robust Long-context RMs (LongRMs). Experiments show that our approach not only substantially improves performance on long-context evaluation but also preserves strong short-context capability. Notably, our 8B LongRM outperforms much larger 70B-scale baselines and matches the performance of the proprietary Gemini 2.5 Pro model.
PDF132October 10, 2025