Mise à l'échelle en temps de test avec modèle génératif réflexif
Test-Time Scaling with Reflective Generative Model
July 2, 2025
papers.authors: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie
cs.AI
papers.abstract
Nous présentons notre premier modèle génératif réflexif, MetaStone-S1, qui atteint les performances d'OpenAI o3 grâce au modèle de récompense auto-supervisé (SPRM). En partageant le réseau principal et en utilisant des têtes spécifiques à la tâche pour la prédiction du prochain token et l'évaluation du processus respectivement, le SPRM intègre avec succès le modèle de politique et le modèle de récompense de processus (PRM) dans une interface unifiée sans annotation de processus supplémentaire, réduisant ainsi plus de 99 % des paramètres du PRM pour un raisonnement efficace. Équipé du SPRM, MetaStone-S1 est naturellement adapté à la mise à l'échelle au moment du test (TTS), et nous proposons trois modes d'effort de raisonnement (faible, moyen et élevé), basés sur la longueur de pensée contrôlable. De plus, nous établissons empiriquement une loi de mise à l'échelle qui révèle la relation entre le calcul total de la pensée et les performances du TTS. Les expériences démontrent que notre MetaStone-S1 atteint des performances comparables à celles de la série OpenAI-o3-mini avec seulement 32 milliards de paramètres. Pour soutenir la communauté de recherche, nous avons rendu MetaStone-S1 open-source à l'adresse https://github.com/MetaStone-AI/MetaStone-S1.
English
We introduce our first reflective generative model MetaStone-S1, which
obtains OpenAI o3's performance via the self-supervised process reward model
(SPRM). Through sharing the backbone network and using task-specific heads for
next token prediction and process scoring respectively, SPRM successfully
integrates the policy model and process reward model(PRM) into a unified
interface without extra process annotation, reducing over 99% PRM parameters
for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable
for test time scaling (TTS), and we provide three reasoning effort modes (low,
medium, and high), based on the controllable thinking length. Moreover, we
empirically establish a scaling law that reveals the relationship between total
thinking computation and TTS performance. Experiments demonstrate that our
MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with
only 32B parameter size. To support the research community, we have
open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.