Test-Tijd Schalen met Reflectief Generatief Model

Samenvatting

We introduceren ons eerste reflectieve generatieve model MetaStone-S1, dat de prestaties van OpenAI o3 behaalt via het zelfgesuperviseerde procesbeloningsmodel (SPRM). Door het delen van het backbone-netwerk en het gebruik van taakspecifieke heads voor respectievelijk de voorspelling van de volgende token en de beoordeling van het proces, integreert SPRM met succes het beleidsmodel en het procesbeloningsmodel (PRM) in een uniforme interface zonder extra procesannotatie, waardoor meer dan 99% van de PRM-parameters wordt gereduceerd voor efficiënte redenering. Uitgerust met SPRM, is MetaStone-S1 van nature geschikt voor testtijdschaling (TTS), en bieden we drie redeneerinspanningmodi (laag, gemiddeld en hoog), gebaseerd op de beheersbare denklengte. Bovendien stellen we empirisch een schaalwet vast die de relatie tussen totale denkberekening en TTS-prestaties onthult. Experimenten tonen aan dat onze MetaStone-S1 vergelijkbare prestaties bereikt met de OpenAI-o3-mini-serie met slechts 32B parameteromvang. Om de onderzoeksgemeenschap te ondersteunen, hebben we MetaStone-S1 open-source gemaakt op https://github.com/MetaStone-AI/MetaStone-S1.

English

We introduce our first reflective generative model MetaStone-S1, which obtains OpenAI o3's performance via the self-supervised process reward model (SPRM). Through sharing the backbone network and using task-specific heads for next token prediction and process scoring respectively, SPRM successfully integrates the policy model and process reward model(PRM) into a unified interface without extra process annotation, reducing over 99% PRM parameters for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable for test time scaling (TTS), and we provide three reasoning effort modes (low, medium, and high), based on the controllable thinking length. Moreover, we empirically establish a scaling law that reveals the relationship between total thinking computation and TTS performance. Experiments demonstrate that our MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with only 32B parameter size. To support the research community, we have open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.

Test-Tijd Schalen met Reflectief Generatief Model

Test-Time Scaling with Reflective Generative Model

Samenvatting

Support