s1: Escalonamento simples no tempo de testes1: Simple test-time scaling
A escalabilidade no momento do teste é uma nova abordagem promissora para modelagem de linguagem que utiliza recursos computacionais extras no momento do teste para melhorar o desempenho. Recentemente, o modelo o1 da OpenAI demonstrou essa capacidade, mas não compartilhou publicamente sua metodologia, o que levou a muitos esforços de replicação. Buscamos a abordagem mais simples para alcançar a escalabilidade no momento do teste e um forte desempenho de raciocínio. Primeiramente, curamos um pequeno conjunto de dados s1K com 1.000 perguntas combinadas com traços de raciocínio, baseando-nos em três critérios que validamos por meio de ablações: dificuldade, diversidade e qualidade. Em segundo lugar, desenvolvemos o "budget forcing" para controlar os recursos computacionais no momento do teste, terminando forçadamente o processo de pensamento do modelo ou prolongando-o ao adicionar "Aguarde" várias vezes à geração do modelo quando ele tenta encerrar. Isso pode fazer com que o modelo revise sua resposta, corrigindo frequentemente etapas de raciocínio incorretas. Após o ajuste fino supervisionado do modelo de linguagem Qwen2.5-32B-Instruct em s1K e equipando-o com o "budget forcing", nosso modelo s1 supera o o1-preview em perguntas de matemática de competição em até 27% (MATH e AIME24). Além disso, a escalabilidade de s1 com o "budget forcing" permite extrapolar além de seu desempenho sem intervenção no momento do teste: de 50% para 57% no AIME24. Nosso modelo, dados e código são de código aberto em https://github.com/simplescaling/s1.