Scalatura al Tempo di Test con Modello Generativo Riflessivo

Abstract

Presentiamo il nostro primo modello generativo riflessivo MetaStone-S1, che raggiunge le prestazioni di OpenAI o3 attraverso il modello di ricompensa del processo auto-supervisionato (SPRM). Condividendo la rete backbone e utilizzando testine specifiche per il compito rispettivamente per la previsione del token successivo e la valutazione del processo, SPRM integra con successo il modello di policy e il modello di ricompensa del processo (PRM) in un'interfaccia unificata senza annotazioni aggiuntive del processo, riducendo oltre il 99% dei parametri PRM per un ragionamento efficiente. Dotato di SPRM, MetaStone-S1 è naturalmente adatto per il ridimensionamento al momento del test (TTS), e forniamo tre modalità di sforzo di ragionamento (basso, medio e alto), basate sulla lunghezza controllabile del pensiero. Inoltre, stabiliamo empiricamente una legge di ridimensionamento che rivela la relazione tra il calcolo totale del pensiero e le prestazioni TTS. Gli esperimenti dimostrano che il nostro MetaStone-S1 raggiunge prestazioni comparabili alla serie OpenAI-o3-mini con una dimensione di soli 32B parametri. Per supportare la comunità di ricerca, abbiamo reso open-source MetaStone-S1 all'indirizzo https://github.com/MetaStone-AI/MetaStone-S1.

English

We introduce our first reflective generative model MetaStone-S1, which obtains OpenAI o3's performance via the self-supervised process reward model (SPRM). Through sharing the backbone network and using task-specific heads for next token prediction and process scoring respectively, SPRM successfully integrates the policy model and process reward model(PRM) into a unified interface without extra process annotation, reducing over 99% PRM parameters for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable for test time scaling (TTS), and we provide three reasoning effort modes (low, medium, and high), based on the controllable thinking length. Moreover, we empirically establish a scaling law that reveals the relationship between total thinking computation and TTS performance. Experiments demonstrate that our MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with only 32B parameter size. To support the research community, we have open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.

Scalatura al Tempo di Test con Modello Generativo Riflessivo

Test-Time Scaling with Reflective Generative Model

Abstract

Support