Escala simple en tiempo de prueba
s1: Simple test-time scaling
January 31, 2025
Autores: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto
cs.AI
Resumen
La escalabilidad en tiempo de prueba es un nuevo enfoque prometedor para la modelización del lenguaje que utiliza recursos computacionales adicionales en el momento de la prueba para mejorar el rendimiento. Recientemente, el modelo o1 de OpenAI demostró esta capacidad pero no compartió públicamente su metodología, lo que llevó a muchos esfuerzos de replicación. Buscamos el enfoque más simple para lograr la escalabilidad en tiempo de prueba y un sólido rendimiento en el razonamiento. En primer lugar, creamos un pequeño conjunto de datos s1K de 1,000 preguntas emparejadas con trazas de razonamiento basadas en tres criterios que validamos mediante abstracciones: dificultad, diversidad y calidad. En segundo lugar, desarrollamos el forzamiento de presupuesto para controlar los recursos computacionales en tiempo de prueba al terminar de manera forzada el proceso de pensamiento del modelo o al alargarlo agregando "Esperar" múltiples veces a la generación del modelo cuando intenta finalizar. Esto puede llevar al modelo a revisar su respuesta, corrigiendo a menudo pasos de razonamiento incorrectos. Después de ajustar finamente supervisado el modelo de lenguaje Qwen2.5-32B-Instruct en s1K y equiparlo con forzamiento de presupuesto, nuestro modelo s1 supera a o1-preview en preguntas de matemáticas de competición hasta en un 27% (MATH y AIME24). Además, escalar s1 con forzamiento de presupuesto permite extrapolar más allá de su rendimiento sin intervención en tiempo de prueba: del 50% al 57% en AIME24. Nuestro modelo, datos y código son de código abierto en https://github.com/simplescaling/s1.
English
Test-time scaling is a promising new approach to language modeling that uses
extra test-time compute to improve performance. Recently, OpenAI's o1 model
showed this capability but did not publicly share its methodology, leading to
many replication efforts. We seek the simplest approach to achieve test-time
scaling and strong reasoning performance. First, we curate a small dataset s1K
of 1,000 questions paired with reasoning traces relying on three criteria we
validate through ablations: difficulty, diversity, and quality. Second, we
develop budget forcing to control test-time compute by forcefully terminating
the model's thinking process or lengthening it by appending "Wait" multiple
times to the model's generation when it tries to end. This can lead the model
to double-check its answer, often fixing incorrect reasoning steps. After
supervised finetuning the Qwen2.5-32B-Instruct language model on s1K and
equipping it with budget forcing, our model s1 exceeds o1-preview on
competition math questions by up to 27% (MATH and AIME24). Further, scaling s1
with budget forcing allows extrapolating beyond its performance without
test-time intervention: from 50% to 57% on AIME24. Our model, data, and code
are open-source at https://github.com/simplescaling/s1.Summary
AI-Generated Summary