Linguistische Verallgemeinerbarkeit der Skalierung zur Testzeit in mathematischem Denken
Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning
February 24, 2025
Autoren: Guijin Son, Jiwoo Hong, Hyunwoo Ko, James Thorne
cs.AI
Zusammenfassung
Die Skalierung der Rechenleistung während des Vortrainings hat sich als wirksam erwiesen, um Multilingualität zu erreichen, aber gilt dasselbe auch für die Skalierung zur Testzeit? In dieser Arbeit stellen wir MCLM vor, einen multilingualen Mathematik-Benchmark mit Wettbewerbsniveau-Problemen in 55 Sprachen. Wir testen drei Testzeit-Skalierungsmethoden - Outcome Reward Modeling (ORM), Process Reward Modeling (ORM) und Budget Forcing (BF) - sowohl auf Qwen2.5-1.5B Math als auch auf MR1-1.5B, einem multilingualen LLM, den wir für erweitertes Argumentieren trainiert haben. Unsere Experimente zeigen, dass die Verwendung von Qwen2.5-1.5B Math mit ORM einen Score von 35.8 auf MCLM erreicht, während BF auf MR1-1.5B 35.2 erreicht. Obwohl "denkende LLMs" in letzter Zeit erhebliche Aufmerksamkeit erregt haben, stellen wir fest, dass ihre Leistung vergleichbar ist mit traditionellen Skalierungsmethoden wie best-of-N, wenn sie einmal auf ähnliche Ebenen von Inferenz-FLOPs beschränkt sind. Darüber hinaus, während BF eine 20-Punkte-Verbesserung bei English AIME bringt, bietet es nur einen durchschnittlichen Gewinn von 1.94 Punkten über andere Sprachen hinweg - ein Muster, das sich bei den anderen von uns untersuchten Testzeit-Skalierungsmethoden zeigt - was darauf hinweist, dass die Testzeit-Skalierung möglicherweise nicht so effektiv auf multilinguale Aufgaben verallgemeinert werden kann. Um weitere Forschung zu fördern, veröffentlichen wir MCLM, MR1-1.5B und Evaluierungsergebnisse.
English
Scaling pre-training compute has proven effective for achieving
mulitlinguality, but does the same hold for test-time scaling? In this work, we
introduce MCLM, a multilingual math benchmark featuring competition-level
problems in 55 languages. We test three test-time scaling methods-Outcome
Reward Modeling (ORM), Process Reward Modeling (ORM), and Budget Forcing
(BF)-on both Qwen2.5-1.5B Math and MR1-1.5B, a multilingual LLM we trained for
extended reasoning. Our experiments show that using Qwen2.5-1.5B Math with ORM
achieves a score of 35.8 on MCLM, while BF on MR1-1.5B attains 35.2. Although
"thinking LLMs" have recently garnered significant attention, we find that
their performance is comparable to traditional scaling methods like best-of-N
once constrained to similar levels of inference FLOPs. Moreover, while BF
yields a 20-point improvement on English AIME, it provides only a 1.94-point
average gain across other languages-a pattern consistent across the other
test-time scaling methods we studied-higlighting that test-time scaling may not
generalize as effectively to multilingual tasks. To foster further research, we
release MCLM, MR1-1.5B, and evaluation results.Summary
AI-Generated Summary