ChatPaper.aiChatPaper

Масштабирование во время тестирования с использованием рефлексивной генеративной модели

Test-Time Scaling with Reflective Generative Model

July 2, 2025
Авторы: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie
cs.AI

Аннотация

Мы представляем нашу первую рефлексивную генеративную модель MetaStone-S1, которая достигает производительности OpenAI o3 с использованием модели вознаграждения за самообучаемый процесс (SPRM). Благодаря совместному использованию базовой сети и применению специализированных голов для предсказания следующего токена и оценки процесса соответственно, SPRM успешно интегрирует модель политики и модель вознаграждения за процесс (PRM) в единый интерфейс без дополнительной аннотации процессов, сокращая более 99% параметров PRM для эффективного вывода. Оснащённая SPRM, MetaStone-S1 естественным образом подходит для масштабирования во время тестирования (TTS), и мы предоставляем три режима усилий рассуждения (низкий, средний и высокий), основанные на контролируемой длине мышления. Более того, мы эмпирически устанавливаем закон масштабирования, который раскрывает взаимосвязь между общими вычислительными затратами на мышление и производительностью TTS. Эксперименты показывают, что наша MetaStone-S1 достигает сопоставимой производительности с серией OpenAI-o3-mini при размере всего в 32B параметров. Для поддержки исследовательского сообщества мы открыли исходный код MetaStone-S1 на https://github.com/MetaStone-AI/MetaStone-S1.
English
We introduce our first reflective generative model MetaStone-S1, which obtains OpenAI o3's performance via the self-supervised process reward model (SPRM). Through sharing the backbone network and using task-specific heads for next token prediction and process scoring respectively, SPRM successfully integrates the policy model and process reward model(PRM) into a unified interface without extra process annotation, reducing over 99% PRM parameters for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable for test time scaling (TTS), and we provide three reasoning effort modes (low, medium, and high), based on the controllable thinking length. Moreover, we empirically establish a scaling law that reveals the relationship between total thinking computation and TTS performance. Experiments demonstrate that our MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with only 32B parameter size. To support the research community, we have open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.
PDF833July 14, 2025