Generalização Linguística do Escalonamento em Tempo de Teste no Raciocínio Matemático

Resumo

A escalada do pré-treinamento computacional tem se mostrado eficaz para alcançar multilingüismo, mas o mesmo vale para a escalada em tempo de teste? Neste trabalho, apresentamos o MCLM, um benchmark matemático multilingue que apresenta problemas de nível competitivo em 55 idiomas. Testamos três métodos de escalada em tempo de teste - Modelagem de Recompensa de Resultado (ORM), Modelagem de Recompensa de Processo (ORM) e Forçamento de Orçamento (BF) - tanto no Qwen2.5-1.5B Math quanto no MR1-1.5B, um LLM multilingue que treinamos para raciocínio estendido. Nossos experimentos mostram que o uso do Qwen2.5-1.5B Math com ORM alcança uma pontuação de 35,8 no MCLM, enquanto o BF no MR1-1.5B atinge 35,2. Embora os "LLMs pensantes" tenham recebido atenção significativa recentemente, descobrimos que seu desempenho é comparável aos métodos tradicionais de escalada, como best-of-N, quando restritos a níveis semelhantes de FLOPs de inferência. Além disso, enquanto o BF proporciona uma melhoria de 20 pontos no AIME em inglês, ele oferece apenas um ganho médio de 1,94 pontos em outros idiomas - um padrão consistente entre os outros métodos de escalada em tempo de teste que estudamos - destacando que a escalada em tempo de teste pode não se generalizar tão efetivamente para tarefas multilingues. Para fomentar pesquisas futuras, disponibilizamos o MCLM, o MR1-1.5B e os resultados de avaliação.

English

Scaling pre-training compute has proven effective for achieving mulitlinguality, but does the same hold for test-time scaling? In this work, we introduce MCLM, a multilingual math benchmark featuring competition-level problems in 55 languages. We test three test-time scaling methods-Outcome Reward Modeling (ORM), Process Reward Modeling (ORM), and Budget Forcing (BF)-on both Qwen2.5-1.5B Math and MR1-1.5B, a multilingual LLM we trained for extended reasoning. Our experiments show that using Qwen2.5-1.5B Math with ORM achieves a score of 35.8 on MCLM, while BF on MR1-1.5B attains 35.2. Although "thinking LLMs" have recently garnered significant attention, we find that their performance is comparable to traditional scaling methods like best-of-N once constrained to similar levels of inference FLOPs. Moreover, while BF yields a 20-point improvement on English AIME, it provides only a 1.94-point average gain across other languages-a pattern consistent across the other test-time scaling methods we studied-higlighting that test-time scaling may not generalize as effectively to multilingual tasks. To foster further research, we release MCLM, MR1-1.5B, and evaluation results.

Generalização Linguística do Escalonamento em Tempo de Teste no Raciocínio Matemático

Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

Resumo

Support