ChatPaper.aiChatPaper

Scalatura al Tempo di Test con Modello Generativo Riflessivo

Test-Time Scaling with Reflective Generative Model

July 2, 2025
Autori: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie
cs.AI

Abstract

Presentiamo il nostro primo modello generativo riflessivo MetaStone-S1, che raggiunge le prestazioni di OpenAI o3 attraverso il modello di ricompensa del processo auto-supervisionato (SPRM). Condividendo la rete backbone e utilizzando testine specifiche per il compito rispettivamente per la previsione del token successivo e la valutazione del processo, SPRM integra con successo il modello di policy e il modello di ricompensa del processo (PRM) in un'interfaccia unificata senza annotazioni aggiuntive del processo, riducendo oltre il 99% dei parametri PRM per un ragionamento efficiente. Dotato di SPRM, MetaStone-S1 è naturalmente adatto per il ridimensionamento al momento del test (TTS), e forniamo tre modalità di sforzo di ragionamento (basso, medio e alto), basate sulla lunghezza controllabile del pensiero. Inoltre, stabiliamo empiricamente una legge di ridimensionamento che rivela la relazione tra il calcolo totale del pensiero e le prestazioni TTS. Gli esperimenti dimostrano che il nostro MetaStone-S1 raggiunge prestazioni comparabili alla serie OpenAI-o3-mini con una dimensione di soli 32B parametri. Per supportare la comunità di ricerca, abbiamo reso open-source MetaStone-S1 all'indirizzo https://github.com/MetaStone-AI/MetaStone-S1.
English
We introduce our first reflective generative model MetaStone-S1, which obtains OpenAI o3's performance via the self-supervised process reward model (SPRM). Through sharing the backbone network and using task-specific heads for next token prediction and process scoring respectively, SPRM successfully integrates the policy model and process reward model(PRM) into a unified interface without extra process annotation, reducing over 99% PRM parameters for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable for test time scaling (TTS), and we provide three reasoning effort modes (low, medium, and high), based on the controllable thinking length. Moreover, we empirically establish a scaling law that reveals the relationship between total thinking computation and TTS performance. Experiments demonstrate that our MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with only 32B parameter size. To support the research community, we have open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.
PDF1034July 14, 2025