Linguistische Verallgemeinerbarkeit der Skalierung zur Testzeit in mathematischem Denken

papers.abstract

Die Skalierung der Rechenleistung während des Vortrainings hat sich als wirksam erwiesen, um Multilingualität zu erreichen, aber gilt dasselbe auch für die Skalierung zur Testzeit? In dieser Arbeit stellen wir MCLM vor, einen multilingualen Mathematik-Benchmark mit Wettbewerbsniveau-Problemen in 55 Sprachen. Wir testen drei Testzeit-Skalierungsmethoden - Outcome Reward Modeling (ORM), Process Reward Modeling (ORM) und Budget Forcing (BF) - sowohl auf Qwen2.5-1.5B Math als auch auf MR1-1.5B, einem multilingualen LLM, den wir für erweitertes Argumentieren trainiert haben. Unsere Experimente zeigen, dass die Verwendung von Qwen2.5-1.5B Math mit ORM einen Score von 35.8 auf MCLM erreicht, während BF auf MR1-1.5B 35.2 erreicht. Obwohl "denkende LLMs" in letzter Zeit erhebliche Aufmerksamkeit erregt haben, stellen wir fest, dass ihre Leistung vergleichbar ist mit traditionellen Skalierungsmethoden wie best-of-N, wenn sie einmal auf ähnliche Ebenen von Inferenz-FLOPs beschränkt sind. Darüber hinaus, während BF eine 20-Punkte-Verbesserung bei English AIME bringt, bietet es nur einen durchschnittlichen Gewinn von 1.94 Punkten über andere Sprachen hinweg - ein Muster, das sich bei den anderen von uns untersuchten Testzeit-Skalierungsmethoden zeigt - was darauf hinweist, dass die Testzeit-Skalierung möglicherweise nicht so effektiv auf multilinguale Aufgaben verallgemeinert werden kann. Um weitere Forschung zu fördern, veröffentlichen wir MCLM, MR1-1.5B und Evaluierungsergebnisse.

English

Scaling pre-training compute has proven effective for achieving mulitlinguality, but does the same hold for test-time scaling? In this work, we introduce MCLM, a multilingual math benchmark featuring competition-level problems in 55 languages. We test three test-time scaling methods-Outcome Reward Modeling (ORM), Process Reward Modeling (ORM), and Budget Forcing (BF)-on both Qwen2.5-1.5B Math and MR1-1.5B, a multilingual LLM we trained for extended reasoning. Our experiments show that using Qwen2.5-1.5B Math with ORM achieves a score of 35.8 on MCLM, while BF on MR1-1.5B attains 35.2. Although "thinking LLMs" have recently garnered significant attention, we find that their performance is comparable to traditional scaling methods like best-of-N once constrained to similar levels of inference FLOPs. Moreover, while BF yields a 20-point improvement on English AIME, it provides only a 1.94-point average gain across other languages-a pattern consistent across the other test-time scaling methods we studied-higlighting that test-time scaling may not generalize as effectively to multilingual tasks. To foster further research, we release MCLM, MR1-1.5B, and evaluation results.

Linguistische Verallgemeinerbarkeit der Skalierung zur Testzeit in mathematischem Denken

Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning

papers.abstract

Support