Généralisation linguistique de la mise à l'échelle au moment du test dans le raisonnement mathématique

papers.abstract

L'augmentation des ressources de calcul lors du pré-entraînement s'est avérée efficace pour atteindre le multilinguisme, mais en est-il de même pour l'augmentation des ressources au moment du test ? Dans ce travail, nous introduisons MCLM, un benchmark multilingue de mathématiques comprenant des problèmes de niveau compétition dans 55 langues. Nous testons trois méthodes d'augmentation des ressources au moment du test - la modélisation de récompense par résultat (ORM), la modélisation de récompense par processus (ORM), et le forçage budgétaire (BF) - sur Qwen2.5-1.5B Math et MR1-1.5B, un modèle de langage multilingue que nous avons entraîné pour le raisonnement étendu. Nos expériences montrent que l'utilisation de Qwen2.5-1.5B Math avec ORM atteint un score de 35,8 sur MCLM, tandis que BF sur MR1-1.5B obtient 35,2. Bien que les "modèles de langage pensants" aient récemment attiré une attention considérable, nous constatons que leurs performances sont comparables aux méthodes traditionnelles d'augmentation des ressources comme best-of-N lorsqu'elles sont contraintes à des niveaux similaires de FLOPs d'inférence. De plus, bien que BF apporte une amélioration de 20 points sur l'AIME en anglais, il ne fournit qu'un gain moyen de 1,94 point sur les autres langues - un schéma cohérent avec les autres méthodes d'augmentation des ressources au moment du test que nous avons étudiées - soulignant que l'augmentation des ressources au moment du test peut ne pas se généraliser aussi efficacement aux tâches multilingues. Pour encourager des recherches ultérieures, nous publions MCLM, MR1-1.5B, et les résultats d'évaluation.

English

Scaling pre-training compute has proven effective for achieving mulitlinguality, but does the same hold for test-time scaling? In this work, we introduce MCLM, a multilingual math benchmark featuring competition-level problems in 55 languages. We test three test-time scaling methods-Outcome Reward Modeling (ORM), Process Reward Modeling (ORM), and Budget Forcing (BF)-on both Qwen2.5-1.5B Math and MR1-1.5B, a multilingual LLM we trained for extended reasoning. Our experiments show that using Qwen2.5-1.5B Math with ORM achieves a score of 35.8 on MCLM, while BF on MR1-1.5B attains 35.2. Although "thinking LLMs" have recently garnered significant attention, we find that their performance is comparable to traditional scaling methods like best-of-N once constrained to similar levels of inference FLOPs. Moreover, while BF yields a 20-point improvement on English AIME, it provides only a 1.94-point average gain across other languages-a pattern consistent across the other test-time scaling methods we studied-higlighting that test-time scaling may not generalize as effectively to multilingual tasks. To foster further research, we release MCLM, MR1-1.5B, and evaluation results.

Généralisation linguistique de la mise à l'échelle au moment du test dans le raisonnement mathématique

Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

papers.abstract

Support