Масштабирование во время тестирования с использованием рефлексивной генеративной модели
Test-Time Scaling with Reflective Generative Model
July 2, 2025
Авторы: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie
cs.AI
Аннотация
Мы представляем нашу первую рефлексивную генеративную модель MetaStone-S1, которая достигает производительности OpenAI o3 с использованием модели вознаграждения за самообучаемый процесс (SPRM). Благодаря совместному использованию базовой сети и применению специализированных голов для предсказания следующего токена и оценки процесса соответственно, SPRM успешно интегрирует модель политики и модель вознаграждения за процесс (PRM) в единый интерфейс без дополнительной аннотации процессов, сокращая более 99% параметров PRM для эффективного вывода. Оснащённая SPRM, MetaStone-S1 естественным образом подходит для масштабирования во время тестирования (TTS), и мы предоставляем три режима усилий рассуждения (низкий, средний и высокий), основанные на контролируемой длине мышления. Более того, мы эмпирически устанавливаем закон масштабирования, который раскрывает взаимосвязь между общими вычислительными затратами на мышление и производительностью TTS. Эксперименты показывают, что наша MetaStone-S1 достигает сопоставимой производительности с серией OpenAI-o3-mini при размере всего в 32B параметров. Для поддержки исследовательского сообщества мы открыли исходный код MetaStone-S1 на https://github.com/MetaStone-AI/MetaStone-S1.
English
We introduce our first reflective generative model MetaStone-S1, which
obtains OpenAI o3's performance via the self-supervised process reward model
(SPRM). Through sharing the backbone network and using task-specific heads for
next token prediction and process scoring respectively, SPRM successfully
integrates the policy model and process reward model(PRM) into a unified
interface without extra process annotation, reducing over 99% PRM parameters
for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable
for test time scaling (TTS), and we provide three reasoning effort modes (low,
medium, and high), based on the controllable thinking length. Moreover, we
empirically establish a scaling law that reveals the relationship between total
thinking computation and TTS performance. Experiments demonstrate that our
MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with
only 32B parameter size. To support the research community, we have
open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.