ChatPaper.aiChatPaper

Test-Time-Skalierung mit reflektivem generativem Modell

Test-Time Scaling with Reflective Generative Model

July 2, 2025
papers.authors: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie
cs.AI

papers.abstract

Wir stellen unser erstes reflektives generatives Modell MetaStone-S1 vor, das die Leistung von OpenAI o3 durch das selbstüberwachte Prozess-Belohnungsmodell (SPRM) erreicht. Durch die gemeinsame Nutzung des Backbone-Netzwerks und die Verwendung von aufgaben spezifischen Köpfen für die Vorhersage des nächsten Tokens und die Bewertung des Prozesses integriert SPRM erfolgreich das Policy-Modell und das Prozess-Belohnungsmodell (PRM) in eine einheitliche Schnittstelle, ohne zusätzliche Prozessannotationen zu benötigen, und reduziert dabei über 99 % der PRM-Parameter für effizientes Schließen. Ausgestattet mit SPRM eignet sich MetaStone-S1 natürlich für die Skalierung zur Testzeit (TTS), und wir bieten drei Anstrengungsmodi (niedrig, mittel und hoch) basierend auf der kontrollierbaren Denklänge an. Darüber hinaus etablieren wir empirisch ein Skalierungsgesetz, das die Beziehung zwischen der gesamten Denkberechnung und der TTS-Leistung aufzeigt. Experimente zeigen, dass unser MetaStone-S1 mit nur 32B Parametern eine vergleichbare Leistung wie die OpenAI-o3-mini-Serie erzielt. Um die Forschungsgemeinschaft zu unterstützen, haben wir MetaStone-S1 unter https://github.com/MetaStone-AI/MetaStone-S1 quelloffen veröffentlicht.
English
We introduce our first reflective generative model MetaStone-S1, which obtains OpenAI o3's performance via the self-supervised process reward model (SPRM). Through sharing the backbone network and using task-specific heads for next token prediction and process scoring respectively, SPRM successfully integrates the policy model and process reward model(PRM) into a unified interface without extra process annotation, reducing over 99% PRM parameters for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable for test time scaling (TTS), and we provide three reasoning effort modes (low, medium, and high), based on the controllable thinking length. Moreover, we empirically establish a scaling law that reveals the relationship between total thinking computation and TTS performance. Experiments demonstrate that our MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with only 32B parameter size. To support the research community, we have open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.
PDF833July 14, 2025