Escalado en Tiempo de Prueba con Modelo Generativo Reflexivo

Resumen

Presentamos nuestro primer modelo generativo reflexivo MetaStone-S1, que alcanza el rendimiento de OpenAI o3 mediante el modelo de recompensa de proceso autosupervisado (SPRM, por sus siglas en inglés). Al compartir la red principal y utilizar cabezales específicos para la predicción del siguiente token y la puntuación del proceso respectivamente, SPRM integra exitosamente el modelo de política y el modelo de recompensa de proceso (PRM) en una interfaz unificada sin necesidad de anotaciones adicionales del proceso, reduciendo más del 99% de los parámetros de PRM para un razonamiento eficiente. Equipado con SPRM, MetaStone-S1 es naturalmente adecuado para el escalado en tiempo de prueba (TTS), y ofrecemos tres modos de esfuerzo de razonamiento (bajo, medio y alto), basados en la longitud controlable del pensamiento. Además, establecemos empíricamente una ley de escalado que revela la relación entre el cómputo total del pensamiento y el rendimiento de TTS. Los experimentos demuestran que nuestro MetaStone-S1 logra un rendimiento comparable a la serie OpenAI-o3-mini con un tamaño de solo 32B parámetros. Para apoyar a la comunidad de investigación, hemos liberado el código de MetaStone-S1 en https://github.com/MetaStone-AI/MetaStone-S1.

English

We introduce our first reflective generative model MetaStone-S1, which obtains OpenAI o3's performance via the self-supervised process reward model (SPRM). Through sharing the backbone network and using task-specific heads for next token prediction and process scoring respectively, SPRM successfully integrates the policy model and process reward model(PRM) into a unified interface without extra process annotation, reducing over 99% PRM parameters for efficient reasoning. Equipped with SPRM, MetaStone-S1 is naturally suitable for test time scaling (TTS), and we provide three reasoning effort modes (low, medium, and high), based on the controllable thinking length. Moreover, we empirically establish a scaling law that reveals the relationship between total thinking computation and TTS performance. Experiments demonstrate that our MetaStone-S1 achieves comparable performance to OpenAI-o3-mini's series with only 32B parameter size. To support the research community, we have open-sourced MetaStone-S1 at https://github.com/MetaStone-AI/MetaStone-S1.

Escalado en Tiempo de Prueba con Modelo Generativo Reflexivo

Test-Time Scaling with Reflective Generative Model

Resumen

Support