M-RewardBench: Avaliando Modelos de Recompensa em Ambientes Multilíngues

Resumo

Os modelos de recompensa (RMs) impulsionaram o desempenho de ponta dos LLMs hoje, permitindo a integração do feedback humano no processo de modelagem de linguagem. No entanto, os RMs são principalmente treinados e avaliados em inglês, e suas capacidades em ambientes multilíngues permanecem amplamente subestudadas. Neste trabalho, realizamos uma avaliação sistemática de vários modelos de recompensa em ambientes multilíngues. Primeiramente, construímos o primeiro benchmark de avaliação de RM multilíngue, M-RewardBench, composto por 2,87 mil instâncias de preferência para 23 idiomas tipologicamente diversos, que testa as capacidades de bate-papo, segurança, raciocínio e tradução dos RMs. Em seguida, avaliamos rigorosamente uma ampla gama de modelos de recompensa no M-RewardBench, oferecendo novas perspectivas sobre seu desempenho em diversos idiomas. Identificamos uma lacuna significativa no desempenho dos RMs entre o inglês e os idiomas não ingleses e mostramos que as preferências do RM podem mudar substancialmente de um idioma para outro. Apresentamos também várias descobertas sobre como diferentes aspectos multilíngues impactam o desempenho do RM. Especificamente, demonstramos que o desempenho dos RMs é aprimorado com a melhoria da qualidade da tradução. Da mesma forma, demonstramos que os modelos apresentam melhor desempenho para idiomas com muitos recursos. Disponibilizamos o conjunto de dados M-RewardBench e a base de código neste estudo para facilitar uma melhor compreensão da avaliação de RM em ambientes multilíngues.

English

Reward models (RMs) have driven the state-of-the-art performance of LLMs today by enabling the integration of human feedback into the language modeling process. However, RMs are primarily trained and evaluated in English, and their capabilities in multilingual settings remain largely understudied. In this work, we conduct a systematic evaluation of several reward models in multilingual settings. We first construct the first-of-its-kind multilingual RM evaluation benchmark, M-RewardBench, consisting of 2.87k preference instances for 23 typologically diverse languages, that tests the chat, safety, reasoning, and translation capabilities of RMs. We then rigorously evaluate a wide range of reward models on M-RewardBench, offering fresh insights into their performance across diverse languages. We identify a significant gap in RMs' performances between English and non-English languages and show that RM preferences can change substantially from one language to another. We also present several findings on how different multilingual aspects impact RM performance. Specifically, we show that the performance of RMs is improved with improved translation quality. Similarly, we demonstrate that the models exhibit better performance for high-resource languages. We release M-RewardBench dataset and the codebase in this study to facilitate a better understanding of RM evaluation in multilingual settings.

M-RewardBench: Avaliando Modelos de Recompensa em Ambientes Multilíngues

M-RewardBench: Evaluating Reward Models in Multilingual Settings

Resumo

Support