Масштабирование во время тестирования с использованием рефлексивной генеративной модели

Аннотация

Мы представляем нашу первую рефлексивную генеративную модель MetaStone-S1, которая достигает производительности OpenAI o3 с использованием модели вознаграждения за самообучаемый процесс (SPRM). Благодаря совместному использованию базовой сети и применению специализированных голов для предсказания следующего токена и оценки процесса соответственно, SPRM успешно интегрирует модель политики и модель вознаграждения за процесс (PRM) в единый интерфейс без дополнительной аннотации процессов, сокращая более 99% параметров PRM для эффективного вывода. Оснащённая SPRM, MetaStone-S1 естественным образом подходит для масштабирования во время тестирования (TTS), и мы предоставляем три режима усилий рассуждения (низкий, средний и высокий), основанные на контролируемой длине мышления. Более того, мы эмпирически устанавливаем закон масштабирования, который раскрывает взаимосвязь между общими вычислительными затратами на мышление и производительностью TTS. Эксперименты показывают, что наша MetaStone-S1 достигает сопоставимой производительности с серией OpenAI-o3-mini при размере всего в 32B параметров. Для поддержки исследовательского сообщества мы открыли исходный код MetaStone-S1 на https://github.com/MetaStone-AI/MetaStone-S1.

English

We introduce our first reflective generative model MetaStone-S1, which obtains OpenAI o3's performance via the self-supervised process reward model (SPRM). Through sharing the backbone network and using task-specific heads for next token prediction and process scoring respectively, SPRM successfully integrates the policy model and process reward model(PRM) into a unified interface without extra process annotation, reducing over 99% PRM parameters for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable for test time scaling (TTS), and we provide three reasoning effort modes (low, medium, and high), based on the controllable thinking length. Moreover, we empirically establish a scaling law that reveals the relationship between total thinking computation and TTS performance. Experiments demonstrate that our MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with only 32B parameter size. To support the research community, we have open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.

Масштабирование во время тестирования с использованием рефлексивной генеративной модели

Test-Time Scaling with Reflective Generative Model

Аннотация

Support