Test-Tijd Schalen met Reflectief Generatief Model
Test-Time Scaling with Reflective Generative Model
July 2, 2025
Auteurs: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie
cs.AI
Samenvatting
We introduceren ons eerste reflectieve generatieve model MetaStone-S1, dat de prestaties van OpenAI o3 behaalt via het zelfgesuperviseerde procesbeloningsmodel (SPRM). Door het delen van het backbone-netwerk en het gebruik van taakspecifieke heads voor respectievelijk de voorspelling van de volgende token en de beoordeling van het proces, integreert SPRM met succes het beleidsmodel en het procesbeloningsmodel (PRM) in een uniforme interface zonder extra procesannotatie, waardoor meer dan 99% van de PRM-parameters wordt gereduceerd voor efficiënte redenering. Uitgerust met SPRM, is MetaStone-S1 van nature geschikt voor testtijdschaling (TTS), en bieden we drie redeneerinspanningmodi (laag, gemiddeld en hoog), gebaseerd op de beheersbare denklengte. Bovendien stellen we empirisch een schaalwet vast die de relatie tussen totale denkberekening en TTS-prestaties onthult. Experimenten tonen aan dat onze MetaStone-S1 vergelijkbare prestaties bereikt met de OpenAI-o3-mini-serie met slechts 32B parameteromvang. Om de onderzoeksgemeenschap te ondersteunen, hebben we MetaStone-S1 open-source gemaakt op https://github.com/MetaStone-AI/MetaStone-S1.
English
We introduce our first reflective generative model MetaStone-S1, which
obtains OpenAI o3's performance via the self-supervised process reward model
(SPRM). Through sharing the backbone network and using task-specific heads for
next token prediction and process scoring respectively, SPRM successfully
integrates the policy model and process reward model(PRM) into a unified
interface without extra process annotation, reducing over 99% PRM parameters
for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable
for test time scaling (TTS), and we provide three reasoning effort modes (low,
medium, and high), based on the controllable thinking length. Moreover, we
empirically establish a scaling law that reveals the relationship between total
thinking computation and TTS performance. Experiments demonstrate that our
MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with
only 32B parameter size. To support the research community, we have
open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.