s1: Einfache Skalierung zur Testzeit
s1: Simple test-time scaling
January 31, 2025
Autoren: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto
cs.AI
Zusammenfassung
Testzeit-Skalierung ist ein vielversprechender neuer Ansatz für die Sprachmodellierung, der zusätzliche Testzeitberechnungen verwendet, um die Leistung zu verbessern. Kürzlich hat das o1-Modell von OpenAI diese Fähigkeit gezeigt, jedoch seine Methodik nicht öffentlich geteilt, was zu vielen Replikationsbemühungen geführt hat. Wir suchen den einfachsten Ansatz, um Testzeit-Skalierung und starke Argumentationsleistung zu erreichen. Zunächst kuratieren wir einen kleinen Datensatz s1K von 1.000 Fragen, die mit Argumentationsspuren gepaart sind, die auf drei Kriterien beruhen, die wir durch Ablationen validieren: Schwierigkeit, Vielfalt und Qualität. Zweitens entwickeln wir Budgetforcing, um die Testzeitberechnung zu kontrollieren, indem wir den Denkprozess des Modells zwangsweise beenden oder verlängern, indem wir "Warten" mehrmals an die Generierung des Modells anhängen, wenn es versucht zu enden. Dies kann das Modell dazu bringen, seine Antwort zu überprüfen, und oft falsche Argumentationsschritte korrigieren. Nach dem überwachten Feintuning des Qwen2.5-32B-Instruct-Sprachmodells auf s1K und der Ausstattung mit Budgetforcing übertrifft unser Modell s1 das o1-Preview bei Wettbewerbsmathematikfragen um bis zu 27% (MATH und AIME24). Darüber hinaus ermöglicht die Skalierung von s1 mit Budgetforcing eine Extrapolation über seine Leistung hinaus ohne Testzeitintervention: von 50% auf 57% bei AIME24. Unser Modell, Daten und Code sind Open Source unter https://github.com/simplescaling/s1 verfügbar.
English
Test-time scaling is a promising new approach to language modeling that uses
extra test-time compute to improve performance. Recently, OpenAI's o1 model
showed this capability but did not publicly share its methodology, leading to
many replication efforts. We seek the simplest approach to achieve test-time
scaling and strong reasoning performance. First, we curate a small dataset s1K
of 1,000 questions paired with reasoning traces relying on three criteria we
validate through ablations: difficulty, diversity, and quality. Second, we
develop budget forcing to control test-time compute by forcefully terminating
the model's thinking process or lengthening it by appending "Wait" multiple
times to the model's generation when it tries to end. This can lead the model
to double-check its answer, often fixing incorrect reasoning steps. After
supervised finetuning the Qwen2.5-32B-Instruct language model on s1K and
equipping it with budget forcing, our model s1 exceeds o1-preview on
competition math questions by up to 27% (MATH and AIME24). Further, scaling s1
with budget forcing allows extrapolating beyond its performance without
test-time intervention: from 50% to 57% on AIME24. Our model, data, and code
are open-source at https://github.com/simplescaling/s1.Summary
AI-Generated Summary