Generalização Linguística do Escalonamento em Tempo de Teste no Raciocínio Matemático
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning
February 24, 2025
Autores: Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne
cs.AI
Resumo
A escalada do pré-treinamento computacional tem se mostrado eficaz para alcançar multilingüismo, mas o mesmo vale para a escalada em tempo de teste? Neste trabalho, apresentamos o MCLM, um benchmark matemático multilingue que apresenta problemas de nível competitivo em 55 idiomas. Testamos três métodos de escalada em tempo de teste - Modelagem de Recompensa de Resultado (ORM), Modelagem de Recompensa de Processo (ORM) e Forçamento de Orçamento (BF) - tanto no Qwen2.5-1.5B Math quanto no MR1-1.5B, um LLM multilingue que treinamos para raciocínio estendido. Nossos experimentos mostram que o uso do Qwen2.5-1.5B Math com ORM alcança uma pontuação de 35,8 no MCLM, enquanto o BF no MR1-1.5B atinge 35,2. Embora os "LLMs pensantes" tenham recebido atenção significativa recentemente, descobrimos que seu desempenho é comparável aos métodos tradicionais de escalada, como best-of-N, quando restritos a níveis semelhantes de FLOPs de inferência. Além disso, enquanto o BF proporciona uma melhoria de 20 pontos no AIME em inglês, ele oferece apenas um ganho médio de 1,94 pontos em outros idiomas - um padrão consistente entre os outros métodos de escalada em tempo de teste que estudamos - destacando que a escalada em tempo de teste pode não se generalizar tão efetivamente para tarefas multilingues. Para fomentar pesquisas futuras, disponibilizamos o MCLM, o MR1-1.5B e os resultados de avaliação.
English
Scaling pre-training compute has proven effective for achieving
mulitlinguality, but does the same hold for test-time scaling? In this work, we
introduce MCLM, a multilingual math benchmark featuring competition-level
problems in 55 languages. We test three test-time scaling methods-Outcome
Reward Modeling (ORM), Process Reward Modeling (ORM), and Budget Forcing
(BF)-on both Qwen2.5-1.5B Math and MR1-1.5B, a multilingual LLM we trained for
extended reasoning. Our experiments show that using Qwen2.5-1.5B Math with ORM
achieves a score of 35.8 on MCLM, while BF on MR1-1.5B attains 35.2. Although
"thinking LLMs" have recently garnered significant attention, we find that
their performance is comparable to traditional scaling methods like best-of-N
once constrained to similar levels of inference FLOPs. Moreover, while BF
yields a 20-point improvement on English AIME, it provides only a 1.94-point
average gain across other languages-a pattern consistent across the other
test-time scaling methods we studied-higlighting that test-time scaling may not
generalize as effectively to multilingual tasks. To foster further research, we
release MCLM, MR1-1.5B, and evaluation results.Summary
AI-Generated Summary