M-RewardBench: Avaliando Modelos de Recompensa em Ambientes Multilíngues
M-RewardBench: Evaluating Reward Models in Multilingual Settings
October 20, 2024
Autores: Srishti Gureja, Lester James V. Miranda, Shayekh Bin Islam, Rishabh Maheshwary, Drishti Sharma, Gusti Winata, Nathan Lambert, Sebastian Ruder, Sara Hooker, Marzieh Fadaee
cs.AI
Resumo
Os modelos de recompensa (RMs) impulsionaram o desempenho de ponta dos LLMs hoje, permitindo a integração do feedback humano no processo de modelagem de linguagem. No entanto, os RMs são principalmente treinados e avaliados em inglês, e suas capacidades em ambientes multilíngues permanecem amplamente subestudadas. Neste trabalho, realizamos uma avaliação sistemática de vários modelos de recompensa em ambientes multilíngues. Primeiramente, construímos o primeiro benchmark de avaliação de RM multilíngue, M-RewardBench, composto por 2,87 mil instâncias de preferência para 23 idiomas tipologicamente diversos, que testa as capacidades de bate-papo, segurança, raciocínio e tradução dos RMs. Em seguida, avaliamos rigorosamente uma ampla gama de modelos de recompensa no M-RewardBench, oferecendo novas perspectivas sobre seu desempenho em diversos idiomas. Identificamos uma lacuna significativa no desempenho dos RMs entre o inglês e os idiomas não ingleses e mostramos que as preferências do RM podem mudar substancialmente de um idioma para outro. Apresentamos também várias descobertas sobre como diferentes aspectos multilíngues impactam o desempenho do RM. Especificamente, demonstramos que o desempenho dos RMs é aprimorado com a melhoria da qualidade da tradução. Da mesma forma, demonstramos que os modelos apresentam melhor desempenho para idiomas com muitos recursos. Disponibilizamos o conjunto de dados M-RewardBench e a base de código neste estudo para facilitar uma melhor compreensão da avaliação de RM em ambientes multilíngues.
English
Reward models (RMs) have driven the state-of-the-art performance of LLMs
today by enabling the integration of human feedback into the language modeling
process. However, RMs are primarily trained and evaluated in English, and their
capabilities in multilingual settings remain largely understudied. In this
work, we conduct a systematic evaluation of several reward models in
multilingual settings. We first construct the first-of-its-kind multilingual RM
evaluation benchmark, M-RewardBench, consisting of 2.87k preference instances
for 23 typologically diverse languages, that tests the chat, safety, reasoning,
and translation capabilities of RMs. We then rigorously evaluate a wide range
of reward models on M-RewardBench, offering fresh insights into their
performance across diverse languages. We identify a significant gap in RMs'
performances between English and non-English languages and show that RM
preferences can change substantially from one language to another. We also
present several findings on how different multilingual aspects impact RM
performance. Specifically, we show that the performance of RMs is improved with
improved translation quality. Similarly, we demonstrate that the models exhibit
better performance for high-resource languages. We release M-RewardBench
dataset and the codebase in this study to facilitate a better understanding of
RM evaluation in multilingual settings.