s1: Mise à l'échelle simple au moment du test

papers.abstract

Le redimensionnement au moment du test est une nouvelle approche prometteuse de modélisation linguistique qui utilise une puissance de calcul supplémentaire au moment du test pour améliorer les performances. Récemment, le modèle o1 d'OpenAI a montré cette capacité mais n'a pas partagé publiquement sa méthodologie, ce qui a conduit à de nombreux efforts de réplication. Nous recherchons l'approche la plus simple pour atteindre le redimensionnement au moment du test et de fortes performances en matière de raisonnement. Tout d'abord, nous constituons un petit ensemble de données s1K de 1 000 questions associées à des traces de raisonnement reposant sur trois critères que nous validons par des ablations : la difficulté, la diversité et la qualité. Ensuite, nous développons le forçage budgétaire pour contrôler la puissance de calcul au moment du test en mettant fin de force au processus de réflexion du modèle ou en le prolongeant en ajoutant plusieurs fois "Wait" à la génération du modèle lorsqu'il essaie de se terminer. Cela peut amener le modèle à vérifier sa réponse, corrigeant souvent des étapes de raisonnement incorrectes. Après un affinage supervisé du modèle linguistique Qwen2.5-32B-Instruct sur s1K et en l'équipant de forçage budgétaire, notre modèle s1 dépasse o1-preview sur des questions de mathématiques de compétition jusqu'à 27 % (MATH et AIME24). De plus, le redimensionnement de s1 avec le forçage budgétaire permet d'extrapoler au-delà de ses performances sans intervention au moment du test : de 50 % à 57 % sur AIME24. Notre modèle, nos données et notre code sont open-source sur https://github.com/simplescaling/s1.

English

Test-time scaling is a promising new approach to language modeling that uses extra test-time compute to improve performance. Recently, OpenAI's o1 model showed this capability but did not publicly share its methodology, leading to many replication efforts. We seek the simplest approach to achieve test-time scaling and strong reasoning performance. First, we curate a small dataset s1K of 1,000 questions paired with reasoning traces relying on three criteria we validate through ablations: difficulty, diversity, and quality. Second, we develop budget forcing to control test-time compute by forcefully terminating the model's thinking process or lengthening it by appending "Wait" multiple times to the model's generation when it tries to end. This can lead the model to double-check its answer, often fixing incorrect reasoning steps. After supervised finetuning the Qwen2.5-32B-Instruct language model on s1K and equipping it with budget forcing, our model s1 exceeds o1-preview on competition math questions by up to 27% (MATH and AIME24). Further, scaling s1 with budget forcing allows extrapolating beyond its performance without test-time intervention: from 50% to 57% on AIME24. Our model, data, and code are open-source at https://github.com/simplescaling/s1.

s1: Mise à l'échelle simple au moment du test

s1: Simple test-time scaling

papers.abstract

Support