Простое масштабирование времени тестированияs1: Simple test-time scaling
Масштабирование на этапе тестирования - это многообещающий новый подход к языковому моделированию, который использует дополнительные вычислительные ресурсы на этапе тестирования для улучшения производительности. Недавно модель o1 от OpenAI продемонстрировала эту возможность, но не раскрыла свою методологию публично, что привело к множеству попыток репликации. Мы ищем самый простой подход к достижению масштабирования на этапе тестирования и высокой производительности в рассуждениях. Во-первых, мы составляем небольшой набор данных s1K из 1 000 вопросов, сопоставленных с трассировками рассуждений, опираясь на три критерия, которые мы проверяем через абляции: сложность, разнообразие и качество. Во-вторых, мы разрабатываем принудительное ограничение бюджета для контроля вычислительных ресурсов на этапе тестирования путем принудительного завершения процесса мышления модели или увеличения его путем добавления "Wait" несколько раз к генерации модели, когда она пытается завершиться. Это может заставить модель перепроверить свой ответ, часто исправляя неправильные шаги рассуждений. После надзорного донастройки языковой модели Qwen2.5-32B-Instruct на наборе данных s1K и оборудования ее принудительным ограничением бюджета, наша модель s1 превосходит o1-preview на математических вопросах соревнования на 27% (MATH и AIME24). Кроме того, масштабирование s1 с принудительным ограничением бюджета позволяет экстраполировать его производительность без вмешательства на этапе тестирования: с 50% до 57% на AIME24. Наша модель, данные и код открыты для общего доступа на https://github.com/simplescaling/s1.