Простое масштабирование времени тестирования
s1: Simple test-time scaling
January 31, 2025
Авторы: Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto
cs.AI
Аннотация
Масштабирование на этапе тестирования - это многообещающий новый подход к языковому моделированию, который использует дополнительные вычислительные ресурсы на этапе тестирования для улучшения производительности. Недавно модель o1 от OpenAI продемонстрировала эту возможность, но не раскрыла свою методологию публично, что привело к множеству попыток репликации. Мы ищем самый простой подход к достижению масштабирования на этапе тестирования и высокой производительности в рассуждениях. Во-первых, мы составляем небольшой набор данных s1K из 1 000 вопросов, сопоставленных с трассировками рассуждений, опираясь на три критерия, которые мы проверяем через абляции: сложность, разнообразие и качество. Во-вторых, мы разрабатываем принудительное ограничение бюджета для контроля вычислительных ресурсов на этапе тестирования путем принудительного завершения процесса мышления модели или увеличения его путем добавления "Wait" несколько раз к генерации модели, когда она пытается завершиться. Это может заставить модель перепроверить свой ответ, часто исправляя неправильные шаги рассуждений. После надзорного донастройки языковой модели Qwen2.5-32B-Instruct на наборе данных s1K и оборудования ее принудительным ограничением бюджета, наша модель s1 превосходит o1-preview на математических вопросах соревнования на 27% (MATH и AIME24). Кроме того, масштабирование s1 с принудительным ограничением бюджета позволяет экстраполировать его производительность без вмешательства на этапе тестирования: с 50% до 57% на AIME24. Наша модель, данные и код открыты для общего доступа на https://github.com/simplescaling/s1.
English
Test-time scaling is a promising new approach to language modeling that uses
extra test-time compute to improve performance. Recently, OpenAI's o1 model
showed this capability but did not publicly share its methodology, leading to
many replication efforts. We seek the simplest approach to achieve test-time
scaling and strong reasoning performance. First, we curate a small dataset s1K
of 1,000 questions paired with reasoning traces relying on three criteria we
validate through ablations: difficulty, diversity, and quality. Second, we
develop budget forcing to control test-time compute by forcefully terminating
the model's thinking process or lengthening it by appending "Wait" multiple
times to the model's generation when it tries to end. This can lead the model
to double-check its answer, often fixing incorrect reasoning steps. After
supervised finetuning the Qwen2.5-32B-Instruct language model on s1K and
equipping it with budget forcing, our model s1 exceeds o1-preview on
competition math questions by up to 27% (MATH and AIME24). Further, scaling s1
with budget forcing allows extrapolating beyond its performance without
test-time intervention: from 50% to 57% on AIME24. Our model, data, and code
are open-source at https://github.com/simplescaling/s1.Summary
AI-Generated Summary