ChatPaper.aiChatPaper

Generalización Lingüística del Escalado en Tiempo de Prueba en Razonamiento Matemático

Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

February 24, 2025
Autores: Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne
cs.AI

Resumen

El escalado del cómputo en la fase de preentrenamiento ha demostrado ser efectivo para lograr multilingüismo, pero ¿ocurre lo mismo con el escalado en el momento de la prueba? En este trabajo, presentamos MCLM, un benchmark multilingüe de matemáticas que incluye problemas de nivel competitivo en 55 idiomas. Evaluamos tres métodos de escalado en tiempo de prueba—Modelado de Recompensa por Resultado (ORM, por sus siglas en inglés), Modelado de Recompensa por Proceso (ORM) y Forzado de Presupuesto (BF)—tanto en Qwen2.5-1.5B Math como en MR1-1.5B, un modelo de lenguaje grande (LLM) multilingüe que entrenamos para razonamiento extendido. Nuestros experimentos muestran que el uso de Qwen2.5-1.5B Math con ORM alcanza una puntuación de 35.8 en MCLM, mientras que BF en MR1-1.5B logra 35.2. Aunque los "LLMs pensantes" han captado recientemente una atención significativa, encontramos que su rendimiento es comparable a métodos tradicionales de escalado como best-of-N cuando se restringen a niveles similares de FLOPs de inferencia. Además, aunque BF produce una mejora de 20 puntos en el AIME en inglés, ofrece solo una ganancia promedio de 1.94 puntos en otros idiomas—un patrón consistente en los otros métodos de escalado en tiempo de prueba que estudiamos—lo que destaca que el escalado en tiempo de prueba puede no generalizarse tan efectivamente a tareas multilingües. Para fomentar más investigación, publicamos MCLM, MR1-1.5B y los resultados de evaluación.
English
Scaling pre-training compute has proven effective for achieving mulitlinguality, but does the same hold for test-time scaling? In this work, we introduce MCLM, a multilingual math benchmark featuring competition-level problems in 55 languages. We test three test-time scaling methods-Outcome Reward Modeling (ORM), Process Reward Modeling (ORM), and Budget Forcing (BF)-on both Qwen2.5-1.5B Math and MR1-1.5B, a multilingual LLM we trained for extended reasoning. Our experiments show that using Qwen2.5-1.5B Math with ORM achieves a score of 35.8 on MCLM, while BF on MR1-1.5B attains 35.2. Although "thinking LLMs" have recently garnered significant attention, we find that their performance is comparable to traditional scaling methods like best-of-N once constrained to similar levels of inference FLOPs. Moreover, while BF yields a 20-point improvement on English AIME, it provides only a 1.94-point average gain across other languages-a pattern consistent across the other test-time scaling methods we studied-higlighting that test-time scaling may not generalize as effectively to multilingual tasks. To foster further research, we release MCLM, MR1-1.5B, and evaluation results.

Summary

AI-Generated Summary

PDF262February 25, 2025