Escalado en Tiempo de Prueba con Modelo Generativo Reflexivo
Test-Time Scaling with Reflective Generative Model
July 2, 2025
Autores: Zixiao Wang, Yuxin Wang, Xiaorui Wang, Mengting Xing, Jie Gao, Jianjun Xu, Guangcan Liu, Chenhui Jin, Zhuo Wang, Shengzhuo Zhang, Hongtao Xie
cs.AI
Resumen
Presentamos nuestro primer modelo generativo reflexivo MetaStone-S1, que
alcanza el rendimiento de OpenAI o3 mediante el modelo de recompensa de proceso
autosupervisado (SPRM, por sus siglas en inglés). Al compartir la red principal
y utilizar cabezales específicos para la predicción del siguiente token y la
puntuación del proceso respectivamente, SPRM integra exitosamente el modelo de
política y el modelo de recompensa de proceso (PRM) en una interfaz unificada
sin necesidad de anotaciones adicionales del proceso, reduciendo más del 99% de
los parámetros de PRM para un razonamiento eficiente. Equipado con SPRM,
MetaStone-S1 es naturalmente adecuado para el escalado en tiempo de prueba
(TTS), y ofrecemos tres modos de esfuerzo de razonamiento (bajo, medio y alto),
basados en la longitud controlable del pensamiento. Además, establecemos
empíricamente una ley de escalado que revela la relación entre el cómputo total
del pensamiento y el rendimiento de TTS. Los experimentos demuestran que
nuestro MetaStone-S1 logra un rendimiento comparable a la serie OpenAI-o3-mini
con un tamaño de solo 32B parámetros. Para apoyar a la comunidad de
investigación, hemos liberado el código de MetaStone-S1 en
https://github.com/MetaStone-AI/MetaStone-S1.
English
We introduce our first reflective generative model MetaStone-S1, which
obtains OpenAI o3's performance via the self-supervised process reward model
(SPRM). Through sharing the backbone network and using task-specific heads for
next token prediction and process scoring respectively, SPRM successfully
integrates the policy model and process reward model(PRM) into a unified
interface without extra process annotation, reducing over 99% PRM parameters
for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable
for test time scaling (TTS), and we provide three reasoning effort modes (low,
medium, and high), based on the controllable thinking length. Moreover, we
empirically establish a scaling law that reveals the relationship between total
thinking computation and TTS performance. Experiments demonstrate that our
MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with
only 32B parameter size. To support the research community, we have
open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.