s1: Ridimensionamento semplice al momento del test
s1: Simple test-time scaling
January 31, 2025
Autori: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto
cs.AI
Abstract
Il ridimensionamento al momento del test è un nuovo approccio promettente alla modellazione del linguaggio che utilizza risorse computazionali aggiuntive al momento del test per migliorare le prestazioni. Recentemente, il modello o1 di OpenAI ha dimostrato questa capacità ma non ha condiviso pubblicamente la sua metodologia, portando a numerosi sforzi di replicazione. Cerchiamo l'approccio più semplice per ottenere il ridimensionamento al momento del test e prestazioni di ragionamento solide. In primo luogo, curiamo un piccolo dataset s1K di 1.000 domande abbinate a tracce di ragionamento basate su tre criteri che convalidiamo attraverso ablation: difficoltà, diversità e qualità. In secondo luogo, sviluppiamo il budget forcing per controllare le risorse computazionali al momento del test terminando forzatamente il processo di pensiero del modello o allungandolo aggiungendo "Wait" più volte alla generazione del modello quando cerca di concludere. Ciò può portare il modello a rivedere la propria risposta, correggendo spesso passaggi di ragionamento errati. Dopo il fine-tuning supervisionato del modello linguistico Qwen2.5-32B-Instruct su s1K e dotandolo di budget forcing, il nostro modello s1 supera o1-preview sulle domande di matematica di competizione fino al 27% (MATH e AIME24). Inoltre, il ridimensionamento di s1 con il budget forcing consente di fare previsioni oltre le sue prestazioni senza intervento al momento del test: dal 50% al 57% su AIME24. Il nostro modello, dati e codice sono open-source su https://github.com/simplescaling/s1.
English
Test-time scaling is a promising new approach to language modeling that uses
extra test-time compute to improve performance. Recently, OpenAI's o1 model
showed this capability but did not publicly share its methodology, leading to
many replication efforts. We seek the simplest approach to achieve test-time
scaling and strong reasoning performance. First, we curate a small dataset s1K
of 1,000 questions paired with reasoning traces relying on three criteria we
validate through ablations: difficulty, diversity, and quality. Second, we
develop budget forcing to control test-time compute by forcefully terminating
the model's thinking process or lengthening it by appending "Wait" multiple
times to the model's generation when it tries to end. This can lead the model
to double-check its answer, often fixing incorrect reasoning steps. After
supervised finetuning the Qwen2.5-32B-Instruct language model on s1K and
equipping it with budget forcing, our model s1 exceeds o1-preview on
competition math questions by up to 27% (MATH and AIME24). Further, scaling s1
with budget forcing allows extrapolating beyond its performance without
test-time intervention: from 50% to 57% on AIME24. Our model, data, and code
are open-source at https://github.com/simplescaling/s1.Summary
AI-Generated Summary