s1: Simpele schaalfactor voor testtijd

Samenvatting

Test-tijd schalen is een veelbelovende nieuwe benadering voor taalmodellering die extra rekenkracht gebruikt tijdens het testen om de prestaties te verbeteren. Onlangs toonde het o1-model van OpenAI deze mogelijkheid, maar de methodologie werd niet openbaar gedeeld, wat heeft geleid tot vele replicatiepogingen. We streven naar de eenvoudigste aanpak om test-tijd schalen en sterke redeneerprestaties te behalen. Ten eerste stellen we een kleine dataset s1K samen van 1.000 vragen gekoppeld aan redeneersporen, gebaseerd op drie criteria die we valideren via ablaties: moeilijkheid, diversiteit en kwaliteit. Ten tweede ontwikkelen we budgetdwang om de test-tijd rekenkracht te beheersen door het denkproces van het model krachtig te beëindigen of te verlengen door meerdere keren "Wachten" toe te voegen aan de gegenereerde tekst van het model wanneer het probeert te eindigen. Dit kan het model ertoe brengen om zijn antwoord te controleren, vaak onjuiste redeneerstappen corrigerend. Na het toezicht houden op de fijnafstemming van het Qwen2.5-32B-Instruct-taalmodel op s1K en het uitrusten met budgetdwang, overtreft ons model s1 o1-preview op wiskundige vragen in wedstrijden met maximaal 27% (MATH en AIME24). Verder maakt het schalen van s1 met budgetdwang extrapolatie mogelijk voorbij zijn prestaties zonder test-tijd interventie: van 50% naar 57% op AIME24. Ons model, data en code zijn open-source op https://github.com/simplescaling/s1.

English

Test-time scaling is a promising new approach to language modeling that uses extra test-time compute to improve performance. Recently, OpenAI's o1 model showed this capability but did not publicly share its methodology, leading to many replication efforts. We seek the simplest approach to achieve test-time scaling and strong reasoning performance. First, we curate a small dataset s1K of 1,000 questions paired with reasoning traces relying on three criteria we validate through ablations: difficulty, diversity, and quality. Second, we develop budget forcing to control test-time compute by forcefully terminating the model's thinking process or lengthening it by appending "Wait" multiple times to the model's generation when it tries to end. This can lead the model to double-check its answer, often fixing incorrect reasoning steps. After supervised finetuning the Qwen2.5-32B-Instruct language model on s1K and equipping it with budget forcing, our model s1 exceeds o1-preview on competition math questions by up to 27% (MATH and AIME24). Further, scaling s1 with budget forcing allows extrapolating beyond its performance without test-time intervention: from 50% to 57% on AIME24. Our model, data, and code are open-source at https://github.com/simplescaling/s1.

s1: Simpele schaalfactor voor testtijd

s1: Simple test-time scaling

Samenvatting

Support