s1: Escalonamento simples no tempo de teste

Resumo

A escalabilidade no momento do teste é uma nova abordagem promissora para modelagem de linguagem que utiliza recursos computacionais extras no momento do teste para melhorar o desempenho. Recentemente, o modelo o1 da OpenAI demonstrou essa capacidade, mas não compartilhou publicamente sua metodologia, o que levou a muitos esforços de replicação. Buscamos a abordagem mais simples para alcançar a escalabilidade no momento do teste e um forte desempenho de raciocínio. Primeiramente, curamos um pequeno conjunto de dados s1K com 1.000 perguntas combinadas com traços de raciocínio, baseando-nos em três critérios que validamos por meio de ablações: dificuldade, diversidade e qualidade. Em segundo lugar, desenvolvemos o "budget forcing" para controlar os recursos computacionais no momento do teste, terminando forçadamente o processo de pensamento do modelo ou prolongando-o ao adicionar "Aguarde" várias vezes à geração do modelo quando ele tenta encerrar. Isso pode fazer com que o modelo revise sua resposta, corrigindo frequentemente etapas de raciocínio incorretas. Após o ajuste fino supervisionado do modelo de linguagem Qwen2.5-32B-Instruct em s1K e equipando-o com o "budget forcing", nosso modelo s1 supera o o1-preview em perguntas de matemática de competição em até 27% (MATH e AIME24). Além disso, a escalabilidade de s1 com o "budget forcing" permite extrapolar além de seu desempenho sem intervenção no momento do teste: de 50% para 57% no AIME24. Nosso modelo, dados e código são de código aberto em https://github.com/simplescaling/s1.

English

Test-time scaling is a promising new approach to language modeling that uses extra test-time compute to improve performance. Recently, OpenAI's o1 model showed this capability but did not publicly share its methodology, leading to many replication efforts. We seek the simplest approach to achieve test-time scaling and strong reasoning performance. First, we curate a small dataset s1K of 1,000 questions paired with reasoning traces relying on three criteria we validate through ablations: difficulty, diversity, and quality. Second, we develop budget forcing to control test-time compute by forcefully terminating the model's thinking process or lengthening it by appending "Wait" multiple times to the model's generation when it tries to end. This can lead the model to double-check its answer, often fixing incorrect reasoning steps. After supervised finetuning the Qwen2.5-32B-Instruct language model on s1K and equipping it with budget forcing, our model s1 exceeds o1-preview on competition math questions by up to 27% (MATH and AIME24). Further, scaling s1 with budget forcing allows extrapolating beyond its performance without test-time intervention: from 50% to 57% on AIME24. Our model, data, and code are open-source at https://github.com/simplescaling/s1.

s1: Escalonamento simples no tempo de teste

s1: Simple test-time scaling

Resumo

Summary

Support

Support