ChatPaper.aiChatPaper

reWordBench: 변형된 입력을 통해 보상 모델의 견고성 벤치마킹 및 개선

reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs

March 14, 2025
저자: Zhaofeng Wu, Michihiro Yasunaga, Andrew Cohen, Yoon Kim, Asli Celikyilmaz, Marjan Ghazvininejad
cs.AI

초록

보상 모델은 현대 NLP에서 필수적인 요소로 자리 잡았으며, 확장 가능한 텍스트 평가 도구로서뿐만 아니라 다양한 정렬 레시피와 추론 시 알고리즘에서도 없어서는 안 될 구성 요소로 활용되고 있습니다. 그러나 최근의 보상 모델들이 표준 벤치마크에서 성능을 향상시키는 것은 부분적으로 과적합 효과에 기인할 수 있으며, 이는 그들의 진정한 능력을 이해하는 데 혼란을 줄 수 있습니다. 본 연구에서는 보상 모델의 견고성과 이러한 과적합의 정도를 면밀히 검토합니다. 우리는 **reWordBench**를 구축하여 보상 모델 입력을 의미 또는 순위를 보존하는 방식으로 체계적으로 변환합니다. 우리는 최첨단 보상 모델들이 사소한 입력 변환에도 상당한 성능 저하를 겪으며, 때로는 무작위 정확도보다 훨씬 낮은 수준으로 떨어지는 취약성을 보인다는 것을 입증합니다. 보상 모델의 견고성을 향상시키기 위해, 우리는 명시적으로 패러프레이즈에 유사한 점수를 부여하도록 훈련하는 방법을 제안하며, 이 접근법이 다른 종류의 변환에 대한 견고성도 개선한다는 것을 발견했습니다. 예를 들어, 우리의 견고한 보상 모델은 RewardBench의 Chat Hard 하위 집합에서 이러한 성능 저하를 약 절반으로 줄입니다. 또한, 정렬 과정에서 사용될 때, 우리의 견고한 보상 모델은 더 나은 유용성을 보여주고 더 높은 품질의 출력을 생성하며, 표준적으로 훈련된 보상 모델에 대해 최대 59%의 사례에서 우위를 점합니다.
English
Reward models have become a staple in modern NLP, serving as not only a scalable text evaluator, but also an indispensable component in many alignment recipes and inference-time algorithms. However, while recent reward models increase performance on standard benchmarks, this may partly be due to overfitting effects, which would confound an understanding of their true capability. In this work, we scrutinize the robustness of reward models and the extent of such overfitting. We build **reWordBench**, which systematically transforms reward model inputs in meaning- or ranking-preserving ways. We show that state-of-the-art reward models suffer from substantial performance degradation even with minor input transformations, sometimes dropping to significantly below-random accuracy, suggesting brittleness. To improve reward model robustness, we propose to explicitly train them to assign similar scores to paraphrases, and find that this approach also improves robustness to other distinct kinds of transformations. For example, our robust reward model reduces such degradation by roughly half for the Chat Hard subset in RewardBench. Furthermore, when used in alignment, our robust reward models demonstrate better utility and lead to higher-quality outputs, winning in up to 59% of instances against a standardly trained RM.

Summary

AI-Generated Summary

PDF162March 18, 2025