リフレクティブ生成モデルを用いたテスト時スケーリング
Test-Time Scaling with Reflective Generative Model
July 2, 2025
著者: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie
cs.AI
要旨
私たちは最初の反射型生成モデルMetaStone-S1を紹介します。このモデルは、自己教師ありプロセス報酬モデル(SPRM)を通じてOpenAI o3の性能を実現します。バックボーンネットワークを共有し、次のトークン予測とプロセススコアリングにそれぞれタスク固有のヘッドを使用することで、SPRMはポリシーモデルとプロセス報酬モデル(PRM)を追加のプロセスアノテーションなしで統合されたインターフェースに統合し、PRMのパラメータを99%以上削減して効率的な推論を実現します。SPRMを搭載したMetaStone-S1は、テストタイムスケーリング(TTS)に自然に適しており、制御可能な思考長に基づいて3つの推論努力モード(低、中、高)を提供します。さらに、私たちは総思考計算量とTTS性能の関係を明らかにするスケーリング則を経験的に確立しました。実験により、MetaStone-S1が32BのパラメータサイズでOpenAI-o3-miniシリーズと同等の性能を達成することが示されました。研究コミュニティを支援するため、MetaStone-S1をhttps://github.com/MetaStone-AI/MetaStone-S1でオープンソース化しました。
English
We introduce our first reflective generative model MetaStone-S1, which
obtains OpenAI o3's performance via the self-supervised process reward model
(SPRM). Through sharing the backbone network and using task-specific heads for
next token prediction and process scoring respectively, SPRM successfully
integrates the policy model and process reward model(PRM) into a unified
interface without extra process annotation, reducing over 99% PRM parameters
for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable
for test time scaling (TTS), and we provide three reasoning effort modes (low,
medium, and high), based on the controllable thinking length. Moreover, we
empirically establish a scaling law that reveals the relationship between total
thinking computation and TTS performance. Experiments demonstrate that our
MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with
only 32B parameter size. To support the research community, we have
open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.