Test-Time-Skalierung mit reflektivem generativem Modell
Test-Time Scaling with Reflective Generative Model
July 2, 2025
papers.authors: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie
cs.AI
papers.abstract
Wir stellen unser erstes reflektives generatives Modell MetaStone-S1 vor, das die Leistung von OpenAI o3 durch das selbstüberwachte Prozess-Belohnungsmodell (SPRM) erreicht. Durch die gemeinsame Nutzung des Backbone-Netzwerks und die Verwendung von aufgaben spezifischen Köpfen für die Vorhersage des nächsten Tokens und die Bewertung des Prozesses integriert SPRM erfolgreich das Policy-Modell und das Prozess-Belohnungsmodell (PRM) in eine einheitliche Schnittstelle, ohne zusätzliche Prozessannotationen zu benötigen, und reduziert dabei über 99 % der PRM-Parameter für effizientes Schließen. Ausgestattet mit SPRM eignet sich MetaStone-S1 natürlich für die Skalierung zur Testzeit (TTS), und wir bieten drei Anstrengungsmodi (niedrig, mittel und hoch) basierend auf der kontrollierbaren Denklänge an. Darüber hinaus etablieren wir empirisch ein Skalierungsgesetz, das die Beziehung zwischen der gesamten Denkberechnung und der TTS-Leistung aufzeigt. Experimente zeigen, dass unser MetaStone-S1 mit nur 32B Parametern eine vergleichbare Leistung wie die OpenAI-o3-mini-Serie erzielt. Um die Forschungsgemeinschaft zu unterstützen, haben wir MetaStone-S1 unter https://github.com/MetaStone-AI/MetaStone-S1 quelloffen veröffentlicht.
English
We introduce our first reflective generative model MetaStone-S1, which
obtains OpenAI o3's performance via the self-supervised process reward model
(SPRM). Through sharing the backbone network and using task-specific heads for
next token prediction and process scoring respectively, SPRM successfully
integrates the policy model and process reward model(PRM) into a unified
interface without extra process annotation, reducing over 99% PRM parameters
for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable
for test time scaling (TTS), and we provide three reasoning effort modes (low,
medium, and high), based on the controllable thinking length. Moreover, we
empirically establish a scaling law that reveals the relationship between total
thinking computation and TTS performance. Experiments demonstrate that our
MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with
only 32B parameter size. To support the research community, we have
open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.